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内 容 提 要 


SDN 是 对 现 有 传统 分 布 式 控制 网 络 架 构 的 一 次 重 构 。 通 过 SDN 把 网 络 软 件 化 ， 可 以 提升 网 络 可 编 
程 能 力 ， 并 大 大 简化 现 有 通信 网 络 并 提高 网 络 业务 创新 速度 。 本 书 重点 介绍 了 SDN 的 定义 、 价 值 和 SDN 
架构 的 基本 原理 ; 同时 ， 还 介绍 了 SDN 中 最 重要 的 系统 一 一 SDN 控制 器 实现 架构 和 原理 ; 随后， 介绍 了 
SDN 面临 的 各 种 挑战 和 可 能 的 应 对 措施 ， 最 后 ， 介 绍 了 如 何 从 现 有 网 络 架构 演进 到 SDN 架构 。 
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SDN 作为 一 种 新 的 网 络 架 构 ， 它 实现 网 络 的 软件 化 ， 试 图 对 传统 分 布 式 网 络 架 
构 进行 重 构 ， 由 传统 分 布 式 网 络 转向 集中 控制 的 SDN 网 络 ， 从 而 给 运营 商 带 来 巨大 
价值 ， 包 括 简化 网 络 、 提 升 网 络 可 编程 能 力 、 支 持 业 务 快 速 创新 、 设 备 白 牌 化 、 业务 
自动 化 等 。SDN 的 理念 一 经 提出 ， 立 即 受到 了 产业 界 的 关注 。 网 络 架 构 重 构 既 意味 
着 机 会 也 意味 着 风险 ， 各 个 厂家 都 做 出 了 积极 应 对 。 华 为 的 应 对 策略 是 积极 支持 SDN 
网 络 变革 ,争取 成 为 SDN 网 络 时 代 的 领导 者 ， 并 积极 投入 SDN 控制 器 的 研究 、 设 计 
开发 和 试验 中 。 

但 是 从 SDN 出 现 至 今 ， 和 争论 就 没有 中 断 过 ， 一 千 个 人 了 眼 里 有 一 千 种 SDN 解释 和 认 
识 。 很 多 时 候 ， 大 家 在 谈论 一 个 概念 ， 相 互 之 间 却 不 知道 对 方 心里 的 概念 到 底 指 什么 ， 
以 致 出 现 各 种 误解 。 无 论 是 设备 商 还 是 运营 商 , 都 有 各 自 的 认识 。 我 作为 华为 SDN 控制 
器 架构 师 ， 在 负责 华为 SDN 控制 器 的 架构 设计 过 程 中 ， 接 触 到 了 各 种 SDN 信息 ， 既 有 
来 自 客户 的 也 有 来 自 友 商 的 ， 既 有 来 自 华 为 高 层 的 也 有 来 自 内 部 相关 部 门 的 ， 再 加 上 华 
为 Fellow 吴 东 君 的 指导 ， 这 些 都 使 我 对 SDN 有 了 一 个 自 认 为 相对 全 面 的 认识 ， 我 眼中 
也 有 了 一 个 自己 的 “哈姆雷特 ”。 今 天 我 把 对 SDN 的 各 种 认识 总 结 并 分 享 出 来 ， 与 广大 
读者 交流 ， 和 希望 读者 能 从 中 有 所 收获 。 

为 了 方便 理解 ， 本 书 有 些 章节 以 华为 的 实现 作为 示例 ， 这 些 示 例 是 当时 的 快 
照 ， 并 不 代表 华为 正式 产品 的 架构 和 方案 。 关 于 华为 控制 器 产品 架构 、 支 持 的 功 
能 和 解决 方案 等 ， 可 参考 华为 官方 正式 的 产品 手册 、 配 置 指 南 、 命 令 参 考 等 资料 。 
本 书 并 不 代表 任何 华为 产品 路 标 和 承诺 ， 只 是 华为 SDN 架构 团队 工作 过 程 中 的 总 
结 和 认识 ， 也 包含 了 个 人 的 观点 ， 错 漏 不 可 避免 ， 请 广大 读者 谅解 ， 并 欢迎 批评 
指正 。 

本 书 介 绍 的 各 种 思想 和 观点 主要 来 自 华 为 SDN 架构 师 核 心 团队 的 吴 东 君 、 关 长江 
和 能 怡 ， 当 然 也 有 来 自 华为 参与 SDN 架构 设计 的 小 组 ， 包 括 白 涛 、 倪 辉 、 李 艳 民 、 黄 铁 
英 、 曾 玮 等 同事 。 我 们 在 一 起 设计 ， 一 起 讨论 ， 对 SDN 逐渐 形成 了 基本 概念 。 为 此 ， 感 
谢 华 为 SDN 设计 团队 , 他 们 拥有 丰富 的 设计 经 验 , 在 整个 架构 和 特性 设计 过 程 中 提出 了 
大 量 的 细节 问题 ， 使 得 我 们 架构 师 团队 能 够 更 加 准确 地 把 握 细 节 。 非 常 感谢 一 起 走 过 来 
的 华为 的 大 师 们 ， 包 括 涂 伯 颜 、 陈 杰 、 杨 宏 杰 、 郭 锋 、 施 震 宇 、 饶 远 、 吕 锡 等 人 。 同 时 
更 加 感谢 潘 梅 芳 、 孝 冠 普 ， 他 们 不 辞 辛苦 对 本 书 进 行 评 审 、 校 对 和 插图 整理 。 没 有 他 们 
的 辛苦 付出 ， 这 本 书 不 知道 是 否 能 够 完成 。 还 要 感谢 李 怪 敏 、 陈 双龙 、 阴 元 斌 、 倪 辉 、 
黄 铁 英 、 董 林 等 人 的 评审 。 
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最 后 ， 感 谢 我 的 夫人 刘 远 万 、 女 儿 央 叶 赫 和 闫 娜 拉 ， 她 们 这 些 年 一 直 在 背后 默默 地 


支持 我 ， 从 来 没有 抱怨 过 我 没有 时 间 陪 她 们 ， 使 我 能 全 身心 地 投入 我 热爱 的 工作 中 ， 并 
能 够 利用 各 种 节假日 完成 这 本 书 的 写作 。 
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一 次 ， 我 驾车 回 家 ， 途 中 使 用 了 导航 软件 导航 。 导 航 软件 有 个 功能 叫 作 “ 避 开 拥堵 
由 于 高 速 拥堵 ， 它 建议 我 提前 从 某 个 出 口 下 高 速 ， 但 等 我 到 了 那个 出 口 前 2 公里 处 时 就 
发 现 车 道 开 始 塞车 ， 我 估计 一 定 有 不 少 人 使 用 了 导航 相同 的 功能 ， 从 而 导致 这 里 出 口 也 
出 现 拥 挤 。 于 是 ， 我 决定 继续 沿 着 高 速 前 行 ， 选 择 其 他 出 口 。 出 人 意料 的 是 ， 我 发 现 前 
面 的 拥堵 其 实 已 经 解除 了 。 我 在 想 , 如 果 导 航 软件 能 够 选择 性 地 通告 一 些 人 走 某 些 出 口 ， 
让 另外 一 些 人 走 其 他 出 口 ， 进 行 流量 分 担 ， 是 不 是 会 更 好 一 些 呢 ? 如 此 一 来 ， 导 航 软件 
对 交通 网 络 的 状态 更 新 的 实时 性 将 变 得 非常 重要 。 假 定 导航 软件 把 拥堵 信息 通告 给 驾驶 
员 ， 由 驾驶 员 自行 决 定 如 何 绕 开 拥堵 时 ， 我 认为 大 部 分 驾驶 员 会 选择 最 短 的 不 拥堵 路 径 
行进 ， 而 这 种 决策 很 可 能 会 导致 新 的 拥堵 。 如 果 导 航 软 件 能 够 实时 了 解 交 通 状态 ， 并 对 
每 个 轰 驶 员 规 划 出 不 同 的 路 径 ， 总 体 上 使 得 所 有 人 都 绕 开 拥堵 ， 而 不 会 产生 新 的 拥堵 ， 
这 是 一 个 最 为 理想 的 结果 。 这 个 导航 软件 实际 上 对 所 有 的 车 辆 实施 了 集中 控制 ， 使 得 整 
体 交 通 状 态 变 得 更 加 通畅 。 如 果 只 是 通告 交通 状态 信息 给 驾驶 员 ， 由 驾驶 员 自 行 决定 行 
程 ， 这 种 分 布 式 路 径 决 策 ， 极 有 可 能 导致 新 的 拥堵 ， 而 这 恰恰 是 我 们 最 不 期 望 的 结果 。 

通信 网 络 和 交通 网 络 是 一 样 的 ， 几 乎 面临 相同 的 问题 。 作 为 现代 通信 网 络 的 基 
础 一 一 JIP 分 组 交换 网 络 而 言 ， 其 基本 原理 就 是 全 分 布 式 路 径 决策 。 这 种 分 布 式 控制 网 络 
的 选 路 过 程 和 上 面 的 交通 案例 中 的 驾驶 员 自 主根 据 道路 拥堵 状态 进行 选择 绕 路 是 一 样 的 
原理 ， 其 结果 会 产生 新 的 拥堵 。 网 络 设备 可 以 通过 一 些 路 由 协议 收集 网 络 拓扑 ， 然 后 选 
择 最 短路 径 转发 报 文 ， 每 个 网 络 设 备 都 自主 选 路 并 遵从 该 原则 ， 这 就 是 分 布 式 自主 选 路 
过 程 。 这 种 网 络 架构 具有 极 高 的 网 络 生 存 能 力 ， 使 得 网 络 本 身 能 够 全 自治 完成 业务 ， 但 
是 这 种 网 络 的 可 控 性 就 受到 极 大 限制 。 一 方面 ， 在 商用 通信 网 络 中 ， 网 络 设备 供应 商 不 
只 是 一 家 ， 经 常 是 多 厂家 设备 共同 组 网 ， 就 要 求 这 些 不 同 厂家 的 设备 需要 协议 互通 ， 而 
这 个 互通 要 求 导致 网 络 文 持 一 些 新 业务 的 时 间 非 常 漫长 ， 通 常数 年 之 久 。 男 一 方面 ， 这 
种 分 布 式 自主 网 络 ， 在 部 署 新 业务 时 ， 需 要 对 网 络 设备 进行 软件 升级 。 然 而 ， 这 些 设备 
数量 众多 ， 同 时 还 承载 着 业务 ， 如 何不 间断 业务 升级 如 此 众多 的 设备 ， 对 网 络 运 维 人 员 
而 言 是 一 个 巨大 的 挑战 。 再 者 ， 在 这 样 分 布 式 控制 的 网 络 中 要 部 署 业务 ， 需 要 逐个 操作 
网 络 设备 ， 并 需要 保持 这 些 网 络 设备 配置 的 一 致 性 ， 以 便 它 们 能 协同 完成 网 络 业务 。 这 
个 过 程 也 经 常会 出 现 问 题 ， 部 署 业 务 人 员 必 须 学 习 大 量 的 分 布 式 控制 协议 的 技术 细节 ， 
才能 很 好 地 进行 业务 部 署 和 运 维 ， 这 种 把 内 部 技术 细节 暴露 出 来 的 做 法 增加 了 网 络 运 维 
难度 ， 提 升 了 对 维护 人 员 的 技能 要 求 ， 从 而 增加 了 运 维 成 本 。 

而 SDN (Software Defined Network， 软 件 定 义 网 络 ) 则 是 试图 重 构 传 统 分 布 式 控制 的 
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网 络 ， 实 现 集中 控制 的 网 络 。 通 过 和 集中 控制 把 网 络 进行 软件 化 ， 这 样 可 以 更 好 支持 网 络 
业务 自动 化 和 自治 ， 并 简化 了 网 络 的 复杂 度 ， 向 运 维 人 员 屏 蔽 了 网 络 技术 细节 ， 降 低 对 
网 络 运 维 人 员 的 要 求 ， 降 低 了 运 维 成 本 。 同 时 SDN 可 以 支持 业务 快速 创新 ,增加 网 络 的 
三 利 能 力 。SDN 控制 器 对 网 络 的 集中 控制 和 交通 拥堵 时 导航 软件 根据 交通 道路 状态 为 不 
同 的 汽车 安排 不 同 的 路 径 是 一 样 的 道理 。 通 过 在 网 络 中 部 署 一 个 集中 控制 的 SDN 控制 
器 ， 当 我 们 需要 调整 网 络 的 行为 ， 不 再 需要 去 修改 网 络 设备 本 身 ， 而 是 只 要 调整 SDN 控 
制 器 内 部 的 软件 就 可 以 了 。 由 于 采用 了 集中 控制 ， 原 来 很 多 的 网 络 分 布 式 控制 协议 就 不 
再 需要 了 ， 网 络 得 到 极 大 的 简化 ， 进 一 步 降低 了 对 人 员 技 能 要 求 ， 提 高 了 网 络 可 运 维 能 
力 ,， 总 体 降低 了 运 维 成 本 。 由 于 集中 的 SDN 控制 器 可 以 提供 网 络 端 到 端的 业务 ,并 提供 
这 些 业 务 的 完全 自治 能 力 ， 这 样 使 得 网 络 的 业务 自动 发 放 能 力 得 到 加 强 ， 能 更 快 地 部 署 
网 络 业 务 。 这 种 做 法 使 得 网 络 运 维 者 可 以 很 简单 地 部 署 业务 ， 甚 至 可 以 把 这 些 业务 接口 
直接 开放 给 他 们 的 客户 ， 从 而 实现 无 人 工 干预 的 业务 销售 能 力 。SDN 这 样 的 能 力 就 满足 
现在 互联 网 公司 对 网 络 快速 部 署 业务 的 需求 ， 提 升 运营 商 的 业务 创新 发 展 速度 。 

SDN 概念 一 出 来 ， 立 即 引 起 了 业界 的 广泛 关注 ， 从 运营 商 、 网 络 设 备 供应 商 、 技 术 
研究 人 员 、 初 创 公司 都 积极 参与 讨论 SDN 的 价值 、 需 求 、 实 现 、 标 准 定义 等 问题 。 原 因 
很 简单 ，SDN 是 对 网 络 架 构 的 重 构 ， 网 络 架构 的 重 构 通常 意味 着 产业 链 的 重 构 ， 也 意味 着 
产业 分 工 的 重 构 。 那 么 ， 在 这 次 SDN 重 构 中 ， 哪 些 公司 能 够 最 后 胜出 ， 哪 些 公司 最 后 被 
大 潮 抛弃 ， 都 取决 于 每 个 公司 是 否 找 对 了 自己 的 位 置 ， 在 产业 链 占据 自己 的 一 席 之 地 。 运 
营 商 积极 响应 ， 探 讨 需求 和 价值 ， 积 极 推 动 部 署 ， 进 行 SDN 实验 。 传 统 供应 商 在 传统 网 
络 有 领先 优势 ， 很 难 放弃 目前 的 利益 。 所 以 这 些 具有 优势 的 供应 商 是 比较 矛盾 的 。 而 一 些 
初创 公司 则 积极 投入 SDN 的 研发 中 ,试图 在 SDN 时 代 成 为 新 的 主流 供应 商 。 还 有 其 他 相 
关 企业 也 积极 投入 SDN 的 探讨 中 ， 包 括 芯 片 供应 商 、OSS 供应 商 等 。 于 是 有 的 供应 商 积 
极 拥 抱 ， 有 的 供应 商 则 半 推 半 就 ， 有 的 供应 商 则 一 边 想 办 法 拖延 一 边 积 极 做 好 各 种 准备 。 

由 于 有 众多 的 企业 参与 SDN 的 讨论 ， 于 是 在 SDN 概念 认识 上 也 就 产生 了 各 种 思路 。 

1. 传统 派 ， 认 为 SDN 就 是 把 原来 的 OSS 做 的 更 加 实时 ， 支 持 网 络 业 务 自 动 发 放 就 
是 一 种 SDN。 这 种 思路 主要 解决 了 目前 网 络 普遍 存在 的 业务 自治 能 力 差 的 问题 。 通过 这 
种 SDN， 可 以 实现 网 络 业务 快速 部 署 ， 提 供 网 络 对 客户 需求 的 响应 速度 ， 满 足 现在 各 种 
互联 网 对 网 络 的 快速 业务 部 署 需求 。 

2. 演进 派 ，SDN 需要 把 网 络 功能 集中 控制 ， 比 如 可 以 把 网 络 内 部 的 交换 路 径 进 行 
集中 控制 ， 也 可 以 把 网 络 的 边缘 接 入 业务 进行 集中 控制 ， 或 者 把 两 者 都 集中 控制 。 通 过 
这 种 灵活 的 集中 控制 ， 使 得 这 种 SDN 可 以 很 好 的 解决 从 现 有 的 传统 分 布 式 网 络 向 SDN 
演进 的 问题 。 而 凡是 被 SDN 集中 控制 的 功能 ， 都 可 以 简化 网 络 ， 降 低 运 维 成 本 ， 加 速 业 
务 创 新 的 进程 。 

3. 创新 派 ，SDN 需要 支持 完全 转 控 分 离 ， 集 中 控制 ， 实 现 OpenFlow 技术 ， 把 设备 
完全 和 白 牌 化 ， 设 备 控制 面 全 部 在 SDN 控制 器 。 这 种 思路 是 一 种 彻底 的 革命 ， 能 够 构建 全 
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新 的 网 络 架 构 ， 实 现 所 有 SDN 的 价值 。ONF 标准 组 织 推动 这 种 技术 的 进步 和 成 熟 ， 初 
创 公司 也 积极 支持 这 种 思路 。 创 新 派 面临 的 主要 问题 是 如 何 能 够 兼容 当前 已 经 广泛 部 署 
的 分 布 式 基础 网 络 问题 。 

上 述 各 种 SDN 思路 ， 其 实 也 反映 了 产业 界 对 SDN 网 络 的 各 种 期 望 和 诉求 。 创 新 派 可 
能 是 SDN 网 络 的 终极 目标 ， 为 了 达到 终极 目标 ， 要 走 的 路 可 能 会 很 长 。 因 为 目前 现 网 已 经 
有 海量 的 传统 分 布 式 网 络 存 在 ， 如 何 把 海量 现 网 逐渐 迁移 到 SDN 网 络 ， 必 然 经 过 一 个 较 长 
演进 阶段 ,逐渐 对 网 络 进 行 一 些 集中 控制 , 逐渐 对 网 络 进行 改造 ， 这 样 也 就 是 上 面 说 的 演进 
派 思 路 。 而 在 为 了 能 快速 解决 网 络 现在 的 业务 自动 化 能 力 不 足 的 问题 , 传统 派 的 思路 就 能 
快速 的 满足 这 种 诉求 。 所 以 这 些 SDN 思潮 不 是 对 立 矛 盾 的 ， 而 是 SDN 的 不 同 发 展 阶段 的 
必然 产物 ， 他 们 是 对 立 统一 的 。 本 书 主 要 目标 向 读者 介绍 演进 派 和 创新 派 的 SDN 基本 原理 
和 概念 ， 较 少 介绍 传统 派 思 路 是 因为 这 个 阶段 相对 业内 人 员 已 经 比较 熟悉 了 。 

本 书 作 者 作为 华为 SDN 设计 研究 人 员 ， 把 自己 对 SDN 的 理解 分 享 出 来 ， 主 要 向 读 
者 阐述 SDN 的 基本 原理 ， 什 么 是 SDN，SDN 给 网 络 带 来 什么 变化 ，SDN 能 够 产生 什么 
价值 等 ， 希 望 通过 对 SDN 的 解析 ， 让 读者 了 解 SDN 的 精髓 ， 把 握 SDN 的 发 展 趋势 。 


本 书 主要 内 容 


第 1 章 ，SDN 概述 

本 章 介 绍 了 SDN 的 产生 历史 ， 以 及 相 比 传统 分 布 式 控 制 网 络 ，SDN 网 络 带 来 了 哪 
些 价值 。 

第 2 章 ，SDN 网 络 的 工作 原理 

本 章 介 绍 了 SDN 网 络 的 基本 工作 原理 ， 并 用 实例 方式 介绍 SDN 网 络 如 何 实现 其 价 
值 的 。 

第 3 章 ，SDN 控制 器 实现 原理 

本 章 给 出 了 SDN 网 络 中 的 核心 部 件 SDN 控制 器 的 需求 .基本 实现 框架 架构 和 范例 。 

第 4 章 ，SDN 网 络 的 可 靠 性 

本 章 给 出 了 SDN 网 络 面临 的 可 靠 性 挑战 ， 分 析 了 SDN 网 络 的 故障 模式 ， 并 给 出 了 
可 能 的 解决 建议 。 

第 5 章 ，SDN 网 络 收敛 问题 

本 章 介 绍 了 SDN 网 络 收敛 和 传统 网 络 收 敛 时 间 对 比 ， 并 给 出 了 可 能 提升 SDN 网 络 
收敛 时 间 的 建议 方案 。 

第 6 章 ，SDN 的 开放 性 

本 章 介 绍 了 SDN 网 络 的 南北 向 开放 的 定义 以 及 如 何 通过 开放 南 向 接口 来 保证 控制 
器 兼容 多 厂家 转发 器 , 介绍 SDN 应 该 开放 哪些 北向 接口 , 给 出 应 用 程序 如 何 使 用 这 些 接 
口 的 建议 。 
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第 7 章 ，SDN 网 络 的 安全 性 

本 章 介 绍 SDN 网 络 面临 的 主要 安全 威胁 ， 以 及 如 何 应 对 这 些 网 络 安全 威胁 ， 确 保 
SDN 网 络 的 安全 可 用 。 

第 8 章 ， 从 现 网 演进 到 SDN 网 络 

本 章 以 多 个 实例 详细 介绍 了 现 有 网 向 SDN 网 络 演进 的 途径 ， 通 过 这 些 演进 技术 ， 
可 以 解决 现 有 网 络 如 何平 滑 迁 移 到 SDN 网 络 的 问题 。 

第 9 章 ，SDN 控制 器 实现 架构 实例 分 析 

本 章 介绍 了 华为 SDN 控制 器 、ONOS 开源 控制 器 和 ODL 开源 控制 器 的 实现 架构 分 析 。 
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1.1 传统 网 络 


1.1.1 传统 网 络 架构 采用 分 布 式 控制 


IP 通信 技术 已 经 成 为 今天 通信 网 络 的 核心 技术 。 今 天 的 通信 网 络 ， 从 庞大 的 全 球 互 
联网 到 大 小 不 一 的 企业 网 、 私 有 网 络 ， 全 部 都 是 基于 IP 构建 的 。 这 些 IP 网 络 中 承载 着 
各 种 各 样 的 业务 ， 包 括 数 据 业 务 、 视 频 业 务 、 传 统 的 语音 业务 ， 人 们 在 互联 网 上 进行 购 
物 、 社 交 、 娱 乐 、 金 融 等 相关 的 活动 。 

IP 技术 之 所 以 能 够 成 为 通信 网 络 的 核心 技术 ， 首 先是 因为 其 具有 简单 性 。 通 过 全 球 
统一 的 人 P 地 址 编 址 ,任何 两 台 主机 就 可 以 进行 通信 ， 而 通信 的 主机 之 间 不 用 关心 对 方 的 
具体 位 置 ， 也 不 用 关心 对 方 具体 的 网 络 细节 ， 这 种 简单 性 使 得 构建 全 球 范 围 的 大 规模 互 
联网 成 为 可 能 。IP 技术 的 另外 一 个 重要 基因 是 采用 分 布 式 控制 架构 。 

传统 的 人’ 网 络 的 自治 系统 内 的 基本 通信 模型 如 图 1-1 所 示 。 






主机 B 
11.8.9.12 


图 1-1 传统 人 P 网 络 的 基本 通信 模型 


在 同一 个 自治 系统 内 ， 当 主机 A 希望 和 主机 B 发 起 通信 时 ， 首 先 主机 A 需要 知道 
主机 B 的 他 地 址 为 11.8.9.12, 主机 A 会 把 发 给 B 的 了 P 报 文 先 发 送 给 网 关 路 由 器 A， 接 
下 来 网 关 路 由 器 A 必须 决定 到 底 这 个 IP 报 文 是 发 送 给 路 由 器 B 还 是 路 由 器 C。 路 由 器 
A 在 做 决策 时 要 把 报 文 发 送 给 路 由 器 B 或 者 C 所 依赖 的 数据 ， 称 作 路 由 表 。 路 由 器 A 
会 根据 了 报 文 里 面 携带 的 目的 地 址 11.8.9.12, 在 路 由 表 中 查找 最 长 匹配 的 路 由 表 项 , 在 
这 个 表 项 中 会 获得 一 个 下 一 跳 路 由 器 和 出 接口 的 信息 : 

IP prefix=11.8.9.0/24, Nexthop = 路 由 器 B, OutgoingInterface=AB 


路 由 器 A 根据 这 些 信息 知道 应 该 把 目的 地 址 为 11.8.9.12 的 报 文 转发 给 路 由 器 B。 
同样 道理 ， 路 由 器 B 必须 决定 是 把 这 个 IP 报 文 发 送 给 路 由 器 C 还 是 路 由 器 D。 这 
里 ， 路 由 器 B 会 根据 其 本 地 的 路 由 表 获 得 如 下 的 转发 信息 : 


' IPprefix=11.8.9.0/24, Nexthop = 路 由 器 D, OutgoingInterface=BD 


路 由 器 B 根据 这 个 信息 , 会 把 该 报 文 转发 给 路 由 器 D。 当 路 由 器 D 收 到 报 文 时 ， 也 
一 样 会 查询 本 地 的 路 由 表 ， 获 得 的 路 由 表 信 息 会 发 现 这 人 台 主 机 和 路 由 器 D 是 直 连 网 络 ， 
所 以 直接 投递 该 报 文 到 路 由 器 和 主机 B 连接 的 接口 ， 这 样 最 终 这 个 报 文 被 逐 跳 转 发 后 ， 
递交 给 了 目的 主机 B。 
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上 述 过 程 是 IP 报 文 逐 跳 转发 的 基本 原理 。 在 这 个 过 程 中 , 每 个 路 由 器 始终 依赖 其 本 
地 的 路 由 表 数 据 来 进行 寻 路 ， 决 定 到 底 应 该 把 报 文 发 送 给 哪个 下 一 跳 路 由 器 。 这 个 路 由 
表 数 据 是 如 何 生成 的 呢 ? 一 个 简单 的 想法 可 能 是 网 络 管理 人 员 自 己 去 配置 ， 比 如 给 路 由 
IP route 11.8.9.0/24 nexthop 路 由 器 B interface AB 
给 路 由 器 B 配置 静态 路 由 : 


IP route 11.8.9.0/24 nexthop 路 由 器 D interface BD 


通过 这 些 配置 ， 每 台 路 由 器 都 会 在 本 地 生成 路 由 表 。 当 目的 地 址 为 11.8.9.12 的 报 文 
进入 路 由 器 时 ， 这 些 路 由 器 就 能 够 根据 这 些 数据 进行 报 文 转 发 。 可 是 ， 上 面 的 做 法 对 于 
一 个 小 的 网 络 是 可 以 工作 的 ， 但 当 网 络 规模 很 大 ， 路 由 数量 可 能 达到 几 十 万 的 时 候 ， 这 
种 手工 静态 配置 的 方法 就 不 能 工作 了 。 另 外 ， 还 有 一 个 原因 也 使 得 这 种 静态 配置 方式 无 
法 工作 ， 那 就 是 当 网 络 的 某 些 链 路 发 生 故障 ， 比 如 路 由 器 A 和 路 由 器 B 的 连接 接口 AB 
中 断 时 ， 报 文 就 不 能 再 正确 转发 到 目的 地 了 ， 从 而 将 导致 通信 中 断 。 直 到 人 工 介 入 再 次 
给 路 由 器 A 和 路 由 器 C 配置 静态 路 由 ， 才 能 恢复 主机 A 和 主机 B 的 通信 。 

为 了 解决 此 类 问题 ， 引 入 了 动态 路 由 协议 方式 来 学 习 这 些 路 由 信息 ， 而 不 是 通过 手 
工 静 态 配置 。 现 在 常见 的 域内 路 由 协议 〈IGP) 主要 是 OSPF 和 ISIS 协议 ， 这 些 协 议 能 
够 学 习 完 整 的 网 络 拓扑 ， 然 后 根据 拓扑 计算 出 任何 两 点 之 间 的 最 短路 径 ， 并 自动 生成 路 
由 信息 。 通 过 这 种 IGP 的 自动 学 习 ， 生 成 路 由 器 转发 所 需 的 路 由 表 的 方法 ， 解 决 了 上 面 
的 两 个 问题 ， 从 而 不 用 人 工 给 每 个 网 段 配置 静态 路 由 。 在 网 络 拓扑 变化 时 ， 也 不 用 人 工 
干预 ， 路 由 协议 会 重新 计算 出 一 条 新 的 转发 路 由 。 当 上 面 说 到 的 接口 AB 中 断 时 ， 路 由 
协议 会 在 1s 时 间 内 自动 重新 学 习 网 络 拓扑 并 计算 出 可 用 路 由 : 路 由 器 A 会 计算 出 走 AC 
口 ， 把 报 文 送 交 给 路 由 器 C; 而 路 由 器 C 会 计算 出 需要 把 这 个 报 文 送 交 给 B; 路 由 器 B 
则 会 计算 出 把 报 文 送 交 给 D。 如 此 会 使 得 主机 A 和 B 的 通信 可 以 在 故障 后 1s 内 恢复 。 
这 些 IGP 需要 在 每 台 路 由 器 上 运行 , 并且 这 些 路 由 器 之 间 会 通过 IGP 路 由 协议 交互 拓扑 
信息 ， 每 台 路 由 器 的 IGP 通过 交互 都 拿 到 同样 的 全 部 网 络 拓扑 数据 ， 然 后 每 台 路 由 器 的 
IGP 分 别 独立 计算 出 转发 报 文 所 需 的 路 由 表 数 据 。 这 个 过 程 是 完全 分 布 式 计 算 的 ， 没 有 
集中 点 ， 网 络 中 任何 路 由 器 出 现 故 障 ， 其 他 路 由 器 都 会 重新 计算 路 由 ， 保 持 网 络 的 最 大 
通信 连接 能 力 。 这 种 在 路 由 计算 和 拓扑 变化 后 全 分 布 式 地 重新 进行 路 由 计算 的 过 程 ， 称 
为 分 布 式 控制 过 程 。 传 统 的 网 络 被 认为 是 全 分 布 式 控制 的 。 

为 了 能 够 大 规模 组 网 ，IP 网 络 架 构 的 设计 者 对 网 络 进行 了 区 域 划分 ， 每 个 区 域 是 一 
个 自治 系统 ， 自 治 系统 内 部 运行 IGP 来 完成 路 由 计算 ， 域 间 则 采用 另外 一 种 路 由 协议 来 
传递 和 扩散 路 由 信息 ， 其 基本 组 网 架构 模型 如 图 1-2 所 示 。 

在 图 1-2 中 ,主机 A 希望 和 主机 B 通信 ， 主 机 A 发 送 报 文 给 主机 B， 当 这 个 报 文 进 
入 到 路 由 器 A 时 ， 路 由 器 A 必须 做 出 决定 ， 是 把 报 文 送 给 路 由 器 B 还 是 路 由 器 C。 此 
时 , 这 个 主机 B 的 网 段 路 由 不 能 通过 IGP 学 习 , 因为 该 主机 B 不 在 自治 系统 118 网 络 内 ， 
而 是 在 另外 一 个 自治 系统 1098 网 络 内 ,自治 系统 118 网 络 内 的 路 由 器 如 何 能 够 学 习 到 网 
段 11.8.9.0/24 的 路 由 呢 ? 为 了 解决 域 间 路 由 学 习 问 题 , IETF 标准 工作 组 定义 了 域 间 路 由 
协议 一 一 BGP。 通 过 BGP， 把 这 种 不 在 同一 个 域内 的 路 由 前 绥 进 行 扩 散 ， 以 便 所 有 的 网 
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络 都 能 学 习 到 这 条 路 由 。BGP 不 仅 可 以 进行 路 由 自动 扩散 和 学 习 功 能 ， 还 可 以 解决 网 络 
故障 收敛 问题 。BGP 和 IGP 一 样 ， 采 用 全 分 布 式 方式 运行 在 路 由 器 上 ， 所 以 BGP 也 是 
一 种 全 分 布 式 控制 协议 。 这 样 ， 卫 网 络 在 多 个 自治 系统 之 间 的 路 由 学 习 方 式 也 是 全 分 布 
式 控 制 的 。 








这 自治 系统 1098 2 ee 


a 


主机 C 
12.8.9.12 





和 


图 1-2 ”传统 网 络 的 自治 系统 设计 


IGP 和 BGP 解决 了 域内 路 由 学 习 和 域 间 路 由 学 习 的 问题 , IP 技术 已 经 为 组 大 网 做 好 
了 准备 。 当 前 全 球 互联 网 的 构建 正 是 采用 IGP 和 BGP 这 两 种 核心 分 布 式 路 由 协议 来 完 
成 的 ， 而 这 两 种 基本 的 路 由 协议 都 是 全 分 布 式 控制 的 。 事 实 上 ，IETF 定义 的 大 量 卫 标 
准 协议 ， 包 括 MPLS 协议 、 组 播 协议 、IPv6 协议 等 ， 都 和 IGP、BGP 的 原理 一 样 ， 采 用 
的 是 全 分 布 式 控制 架构 。 所 以 ， 传 统 网 络 是 一 种 全 分 布 式 控制 的 网 络 。 


1.1.2 ”网 络 的 管理 面 、 控 制 面 、 数 气 面 


前 面 介绍 了 传统 IP 网 络 的 分 布 式 控制 架构 ， 这 个 分 布 式 控制 架构 包含 了 BGP、 
IGP、MPLS 协议 、 组 播 协议 、IPv6 协议 等 重要 的 分 布 式 控制 协议 ， 这 些 控制 协议 构成 
了 IP 网络 的 控制 平面 。 另外 ,前面 提 到 每 个 路 由 器 会 根据 这 些 路 由 表 数 据 对 报 文 进行 寻 
址 转发 ， 这 个 根据 路 由 表 进 行 寻 址 转发 的 功能 是 数据 面 功能 。 

接 下 来 ， 一 个 对 外 提供 服务 的 网 络 ， 还 必须 考虑 如 何 对 网 络 进行 运行 维护 管理 ， 所 
以 网 络 还 存在 一 个 管理 面 。 下 面 简单 介绍 网 络 的 管理 平面 以 及 这 几 个 平面 之 间 的 关系 。 

管理 平面 负责 网 络 设备 管理 和 业务 管理 , 其 主要 功能 分 为 业务 配置 管理 、 策 略 管 理 、 
设备 管理 、 告 警 管理 、 性 能 管理 、 故 障 定位 等 操作 维护 管理 功能 。 管 理 平面 主要 设备 包 
括 网 元 网 管 EMS 和 网 络 业务 管理 OSS (Operation Support System， 运 营 支 撑 系 统 )。 网 
元 网 管 主要 负责 两 部 分 工作 : 一 部 分 工作 负责 网 元 设备 管理 ， 包 括 网 元 的 电源 、 风 扇 、 
温度 、 硬 件 板 卡 、 指 示 灯 等 的 管理 ， 这 部 分 基本 不 涉及 业务 管理 ， 另 外 一 部 分 工作 是 负 
责 对 网 元 上 的 业务 进行 配置 ， 这 些 配置 包括 安全 数据 配置 、 业 务 数据 配置 、 网 络 协议 配 
置 等 。 当 网 络 管理 员 希 望 在 网 络 中 部 署 业 务 时 ， 可 以 直接 通过 网 元 网 管 对 每 台 路 由 器 进 
行 配置 ， 完 成 整 网 的 业务 部 署 。 网 络 管理 员 也 可 以 通过 OSS 业务 管理 系统 来 向 网 络 发 放 
业务 ，OSS 的 主要 工作 是 实现 策略 管理 、 业 务 管理 等 。OSS 主要 通过 网 元 网 管 对 接 下 面 
的 路 由 器 设备 ， 有 时 OSS 也 会 直接 调用 路 由 器 的 北向 (我 们 在 画 网 络 结构 图 时 ， 通常 把 
OSS 画 在 上 方 ， 路 由 器 画 在 下 方 ， 分 别 对 应 地 图 方位 的 北方 和 南方 ， 这 样 对 于 路 由 器 来 
说 ， 开 放出 来 的 操作 接口 是 指向 北方 的 ， 所 以 通常 叫 作 路 由 器 的 北向 接口 。 相 对 地 ， 这 
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个 接口 对 于 OSS 来 说 ， 则 是 OSS 的 南 向 接口 ) 操作 接口 部 署 业务 ， 并 对 业务 进行 监控 。 

控制 平面 负责 网 络 控制 ， 其 责任 是 根据 网 络 状 态 的 变化 ， 比 如 拓扑 变化 ， 对 网 络 进 
行 实时 反馈 、 调 整 网 络 的 各 种 数据 和 行为 ， 使 网 络 保持 在 正常 工作 和 提供 承诺 服务 的 状 
态 。 前 面 介 绍 的 IGP、BGP， 就 是 控制 平面 ， 而 且 传 统 的 网 络 是 分 布 式 控制 的 。 控 制 平 
面 的 主要 功能 是 为 网 络 设备 生成 转发 所 需 的 数据 一 一 路 由 表 数 据 ， 以 及 当 网 络 状态 发 生 
变化 时 ， 控 制 平面 必须 实时 快速 地 收敛 ， 重 新 生成 路 由 表 ， 以 便 在 网 络 故 障 时 ， 能 够 让 
网 络 仍 然 处 于 正常 提供 报 文 转发 服务 的 工作 状态 。 

数据 平面 也 就 是 用 户 平面 ， 是 指 设备 根据 控制 平面 生成 的 指令 完成 用 户 业务 转发 和 
处 理 的 部 分 。 

通过 上 面 的 定义 可 以 看 出 ， 网 络 管理 平面 通常 情况 下 并 不 会 对 网 络 的 实时 状态 进行 
反馈 控制 ， 因 此 ， 管 理 平 面 是 可 以 离线 的 ， 比 如 离线 几 小 时 甚至 几 天 。 此 时 ， 如 果 网 络 
控制 平面 工作 正常 ， 通 常 网 络 会 保持 正常 工作 状态 并 持续 提供 业务 功能 ， 不 会 因为 管理 
平面 离线 而 导致 业务 失效 。 相反 ,控制 平面 则 必须 总 是 在 线 运行 ,对 网 络 进行 实时 控制 。 
因为 控制 平面 如 果 离 线 ， 当 网 络 状 态 发 生变 化 时 网 络 就 可 能 出 现 错误 ， 进 而 导致 用 户 业 
务 失效 ， 无 法 提供 承诺 的 转发 服务 ， 所 以 可 以 把 网 络 控制 平面 比喻 成 大 脑 ， 一 刻 也 不 能 
离线 。 从 这 个 角度 以 及 实践 角度 上 看 ， 设 备 控制 平面 的 实时 性 和 可 靠 性 比 管理 平面 的 要 
求 高 很 多 。 


1.1.3 ”传统 网 络 的 局 限 性 


传统 通信 和 网络 是 分 布 式 控制 的 ， 一 般 分 为 管理 平面 、 控 制 平面 、 数 据 平面 。 传 统 网 
络 的 基本 架构 如 图 1-3 所 示 。 





图 1-3 ”传统 网 络 的 基本 架构 


传统 网 络 中 通常 会 部 署 一 个 集中 的 网 管 (EMS 和 OSS) 作为 管理 平面 ， 而 控制 平面 
和 数据 平面 都 是 分 布 式 的 ， 分 布 在 每 个 路 由 器 上 运行 。 当 网 管 把 网 络 业务 配置 到 路 由 器 
后 ， 如 果 网 络 状态 发 生变 化 ， 分 布 式 控制 平面 会 在 网 络 中 自动 扩散 这 些 网 络 状 态 变 化 ， 
然后 各 自 根据 新 的 网 络 状态 自动 重新 计算 路 由 ， 并 刷新 转发 面 的 转发 表 以 确保 受到 影响 
的 用 户 业 务 得 以 恢复 。 这 种 分 布 式 控制 的 卫 网 络 架 构 , 经 过 产业 界 30 多 年 的 不 懈 努 力 ， 
已 经 成 为 当今 全 球 各 种 通信 系统 的 基础 网 络 架构 。 但 是 通信 网 络 发 展 到 今天 ， 也 出 现 了 
一 些 不 可 克服 的 局 限 性 。 
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1. 流量 路 径 的 灵活 调整 能 力 不 足 

传统 网 络 采用 分 布 式 控 制 网 络 架 构 ， 每 台 路 由 器 设备 收集 到 网 络 拓扑 后 ， 运 行 在 其 
上 的 路 由 协议 各 自 根据 这 些 数据 进行 路 由 计算 , 生成 路 由 表 , 以 指导 路 由 器 的 转发 行为 。 
这 种 分 布 式 路 由 计算 有 一 个 要 求 ， 就 是 所 有 的 路 由 器 设备 必须 采用 相同 的 算法 ， 并 且 计 
算出 来 的 路 由 不 能 存在 环 路 。 如 图 1-1 所 示 ， 所 有 路 由 器 都 在 各 自 进 行路 由 计算 ， 如 果 
不 能 采用 统一 的 算法 规则 ， 则 会 产生 路 由 环 路 。 例 如 ， 如 果 路 由 器 A 的 IGP 计算 出 来 的 
11.8.9.0/24 的 路 由 是 希望 通过 路 由 器 B 为 下 一 跳 转 发 报 文 ， 而 路 由 器 B 的 IGP 计算 出 来 
该 前 级 的 路 由 则 希望 把 路 由 器 A 作为 下 一 跳 转 发 ， 结 果 报 文 会 在 路 由 器 A 和 B 之 间 来 
回转 发 ， 形 成 环 路 。 传 统 分 布 式 路 由 协议 采用 的 全 分 布 式 计 算 ， 规定 了 一 套 避 免 环 路 的 
方法 ， 即 IGP 采用 最 短路 径 算法 〈Shortest Path Forwarding，SPF)， 所 有 的 设备 在 计算 路 
由 时 , 都 是 根据 自己 学 习 到 的 网 络 拓扑 信息 进行 路 由 计算 。 拓 扑 信 息 里 面 有 一 个 Cost( 费 
用 ) 字段 ， 路 由 协议 利用 Cost 来 计算 到 达 目 的 地 的 最 短路 径 ， 然 后 把 在 最 短路 径 上 的 下 
一 跳 路 由 器 作为 转发 路 由 。 采 用 这 种 技术 可 以 避免 上 面 描述 的 环 路 问题 。 但 是 却 会 带 来 
另 一 个 问题 一 一 最 短路 径 拥 塞 。 

这 种 分 布 式 路 由 计算 采用 了 最 短路 径 算法 : 流量 只 能 走 在 最 短路 径 上 ， 有 时 候 最 短 
路 径 已 经 拥塞 ， 系 统 却 没有 办 法 进行 自动 调节 ， 只 能 看 着 最 短路 径 拥 塞 ， 而 其 他 路 径 空 
闲 的 情况 发 生 ， 却 无 能 为 力 ， 如 图 1-4 所 示 。 


ToGbivs/2.5Gbits 
2.4Gbit/s/2.5Gbit/s 8Gbit/s/40Gbit/s 





已 用 带宽 /总 带宽 
图 1-4 最 短路 径 拥塞 问题 


在 B-C 的 路 径 上 几乎 丢 包 , B 到 C 的 接口 带宽 为 2.5Gbit/s, 流量 已 经 达到 2.4Gbit/s， 
但 是 B-A-C 路 径 却 很 空闲 ,B 到 A 的 链 路 带宽 为 2.5Gbit/s, 实际 使 用 1Gbit/s, 有 1.5Gbit/s 
带宽 空闲; A 到 C 链 路 有 40Gbit/s 带宽 ， 实 际 使 用 8Gbits， 有 32Gbit/s 带宽 空 闸 。 对 于 
这 种 情况 ， 传 统 的 IGP 没有 任何 办 法 可 解决 。 尽 管 在 传统 网 络 中 也 定义 了 MPLS 流量 工 
程 来 解决 此 类 问题 ， 但 是 由 于 MPLS 流量 工程 采用 的 是 RSVP， 不 但 复杂 ， 可 扩展 性 不 
好 ， 而 且 不 能 根据 网 络 流量 状态 自动 实时 创建 流量 工程 隧道 来 旁 路 流量 ， 通 常 只 能 用 于 
预先 规划 流量 路 径 的 方式 进行 部 署 。 所 以 传统 的 流量 工程 不 能 很 好 地 解决 上 面 的 实时 流 
量 动 态 调整 问题 。 

在 传统 的 MPLS 流量 工程 应 用 中 ， 不 仅 不 能 很 好 地 解决 大 规模 流量 工程 问题 和 实 
时 流量 调整 问题 ， 而 且 还 因为 传统 的 流量 工程 技术 也 是 分 布 式 计算 的 ， 每 台 路 由 器 各 
自 进 行 隧道 计算 ， 结 果 因 为 时 序 问题 会 导致 一 些 网 络 业务 无 法 在 网 络 中 部 署 。 这 个 例 
子 如 图 1-5 所 示 。 
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图 1-5 传统 流量 工程 的 业务 时 序 依赖 问题 


图 1-5 展示 了 一 个 因为 分 布 式 计 算 隧道 带 来 的 问题 。 假 定 所 有 链 路 带宽 为 10Gbit/s， 
有 3 个 隧道 业务 请 求 ， 按 照 业务 1、2、3 部 署 请 求 顺 序 进 行 分 布 式 计算 : 

第 1 条 业务 A 一 E，6Gbit/s 带宽 请 求 ， 路 由 器 A 的 计算 结果 是 A 一 B 一 C 一 D 一 E。 

第 2 条 业务 C 一 D，8Gbit/s 带宽 请 求 ， 路 由 器 C 的 计算 结果 是 找 不 到 链 路 ， 因 为 
C 一 D，D 一 E 之 间 链 路 都 只 有 4Gbit/s 可 用 ， 所 以 失败 。 

第 3 条 业务 C 一 G，4Gbit/s 带宽 请 求 ， 路 由 器 C 的 计算 结果 是 经 过 C 一 B 一 A 一 F 一 G。 

可 以 看 到 ， 网 络 没 有 能 够 承载 第 2 条 业务 。 但 是 事实 上 ， 第 2 条 业务 是 可 以 被 承载 
的 ，3 条 业务 都 可 以 得 到 满足 。 采 用 一 种 全 局 优化 的 计算 法 ， 计 算 结 果 如 图 1-6 所 示 。 





图 1-6 经 过 全 局 计算 后 的 三 条 业务 部 署 情 况 


第 1 条 业务 A 一 E，6Gbit/s 带宽 请 求 ， 路 由 器 A 的 计算 结果 是 经 过 A 一 F 一 G 一 H 一 E。 

第 2 条 业务 C 一 D，8Gbit/s 带宽 请 求 ， 路 由 器 C 的 计算 结果 是 C 一 D。 

第 3 条 业务 C 一 G，4Gbit/s 带宽 请 求 ， 路 由 器 C 的 计算 结果 是 C 一 G。 

上 述 情 况 的 发 生 ， 主 要 是 因为 采用 了 分 布 式 计算 ， 并且 业 务 请 求 按 指 定 次 序 发 生 ， 
每 个 隧道 起 点 的 路 由 器 根据 自己 的 数据 计算 ， 没 有 全 局 的 数据 ， 结 果 导 致 第 2 条 业务 无 
法 承载 。 如 果 通 过 集中 计算 ， 对 所 有 业务 进行 一 次 全 局 性 重 优 化 ， 自 然 可 以 找到 后 面 的 
答案 ， 从 而 提高 网 络 利 用 率 。 

此 外 ，MPLS 流量 工程 还 涉及 网 络 利 用 率 的 问题 。 网 络 利 用 率 是 指 特定 一 张 网 络 能 
够 承载 的 业务 数量 ， 承 载 的 业务 数量 越 多 ， 那 么 网 络 利用 率 就 越 高 。 网 络 利用 率 的 计算 
公式 是 : 
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网 络 利用 率 = 网 络 业务 吞 吐 量 /网 络 总 链 路 带宽 
网 络 利用 率 不 是 网 络 带宽 利用 率 。 网 络 带宽 利用 率 的 计算 公式 是 : 
网 络 带 宽 利 用 率 = 所 有 链 路 的 实际 使 用 带宽 /网 络 总 链 路 带宽 

网 络 利用 率 高 ， 通 常 网 络 带 宽 利 用 率 也 会 高 ， 但 是 网 络 带 宽 利 用 率 高 不 能 推导 出 网 
络 利 用 率 高 。 如 果 让 一 个 流量 在 网 路 中 来 回 绕 路 转发 ， 将 导致 网 络 带宽 利用 率 很 高 ， 但 
是 网 络 吞 吐 量 却 没有 变化 ， 网 络 利用 率 也 就 没有 变化 。 我 们 追求 的 目标 是 提升 网 络 利用 
率 ， 而 且 希 望 在 同样 网 络 利 用 率 的 情况 下 ， 尽 量 降低 网 络 带 宽 利用 率 ， 或 者 说 希望 在 同 
样 带宽 利用 率 的 情况 下 ， 追 求 更 高 的 网 络 利 用 率 ， 使 得 网 络 能 够 承载 更 多 业务 。 要 使 网 
络 利用 率 最 佳 ， 那 么 就 要 求 所 有 业务 都 走 最 短路 径 ， 不 要 绕 路 ,但 是 由 于 网 络 实际 的 业 
务 流向 不 均衡 ， 有 些 流向 上 流量 非常 大 ， 最 短路 径 无 法 满足 要 求 ， 所 以 必须 通过 绕 路 来 
把 这 些 大 的 业务 流转 发 过 去 ， 这 样 网 络 利用 率 提 高 了 ， 但 是 也 消耗 了 更 多 的 带宽 资源 。 
当然 ， 我 们 的 目标 本 来 就 是 要 提升 网 络 的 利用 率 ， 提 高 网 络 业务 的 吞吐 量 ， 所 以 有 些 时 
候 必须 选择 绕 路 方案 ， 这 正 是 流量 工程 的 作用 。 

2. 传统 网 络 协议 复杂 ， 运 行 维护 复杂 

传统 的 分 布 式 控制 协议 数量 非常 多 ， 基 本 都 是 由 IETF 标准 组 织 定义 的 ， 包 括 IGP、 
BGP、MPLS、 组 播 协议 、IPv6 等 。 经 过 30 余年 的 发 展 ，IETF 拥有 数 以 千 计 的 协议 族 
标准 文稿 体系 ,其 中 和 网 络 设备 直接 相关 的 有 2000 多 个 , 而 且 每 年 还 在 不 断 增加 。 正 是 
如 此 庞大 的 协议 体系 ， 使 得 网 络 维护 变 得 复杂 ， 对 维护 人 员 的 技能 有 极 高 要 求 ， 网 络 维 
护 人 员 不 得 不 学 习 大 量 的 标准 协议 。 其 实 ， 网 络 本 来 是 可 以 简单 一 些 的， 并 不 需要 这 么 
多 协议 。 后 文 将 介绍 SDN 网 络 架构 是 如 何 简化 这 些 网 络 协议 的 。 

另外 ， 设 备 厂 家 在 实现 这 些 标准 协议 时 ， 都 进行 了 一 些 特定 的 私有 扩展 ， 使 得 设备 
的 操作 维护 更 加 复杂 ， 现 在 主流 路 由 器 的 操作 命令 行 都 在 1 万 条 以 上 。 更 复杂 的 是 ， 各 
厂家 的 操作 界面 也 不 相同 ， 比 如 ， 主 流 的 IP 设备 供应 商 华为 、 思 科 、 阿 朗 ， 它 们 的 路 由 
器 的 操作 界面 有 很 大 差异 ， 这 进一步 加 剧 了 网 络 管理 员 操作 维护 网 络 的 难度 ， 同 时 大 幅 
增加 了 网 络 的 运行 维护 成 本 。 

3. 传统 网 络 的 新 业务 创新 速度 太 慢 

传统 分 布 式 控制 网 络 带 来 的 另 一 个 问题 是 新 业务 创新 速度 越 来 越 慢 。 这 里 的 新 业务 
通常 包括 网 络 上 支持 的 L2VPN 业务 、L3VPN 业务 等 。 当 需要 在 网 络 中 部 署 新 业务 时 ， 
首先 需要 解决 的 问题 是 讨论 需求 、 定 义 标准 ， 这 需要 经 过 一 两 年 的 标准 讨论 定义 ，IETF 
才 会 达成 一 致 ， 发 布 标准 ; 然后 各 个 设备 供应 厂家 再 实现 这 些 标准 ， 通 常 周期 也 要 1 年 
左右 ; 最 后 才能 在 现 网 上 部 署 升 级 这 些 业 务 特性 ， 这 又 需要 半年 到 1 年 的 时 间 。 整 体 过 
程 从 需求 提出 到 网 络 可 以 部 署 业 务 , 通常 需要 长 达 3~5 年 的 时 间 。 这 样 的 新 业务 上 线 速 
度 ， 无 法 满足 运营 商 的 业务 需求 。 运 营 商 希 望 能 够 快速 提供 网 络 业务 〈 比 如 L2VPN、 
L3VPN、 专 线 等 )， 以 便 满足 客户 的 多 变 需 求 ， 所 以 必须 想 办 法 解决 新 业务 创新 速度 慢 
的 问题 。 

尽管 传统 分 布 式 网 络 带 来 了 今天 网 络 世 界 的 繁荣 ， 但 是 也 面临 着 前 面 提 到 的 几 个 局 
限 性 ， 那 么 ， 如 何 解 决 这 些 问题 ， 在 不 改变 人 P 网 络 转发 面 机 制 的 前 提 下 ， 是 否 可 以 让 网 
络 更 加 敏捷 、 更 加 简单 、 更 加 自动 化 呢 ? SDN 网 络 架 构 正 是 为 解决 这 些 问 题 而 提出 的 一 
个 新 的 网 络 架 构 。 
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1.2 ”SDN 的 诞生 


1.2.1 ”SDN 是 集中 控制 的 网 络 架 构 


2006 年 ，SDN 诞生 于 美国 GENI 项 目 资助 的 斯 坦 福 大 学 Clean Slate 课题 。 以 斯 坦 福 
大 学 尼克 。 麦 克 考 恩 (Nick McKeown) 教授 为 首 的 研究 团队 提出 了 OpenFlow 的 概念 ， 
并 基于 OpenFlow 技术 实现 网 络 的 可 编程 能 力 ， 使 得 网 络 变 得 像 软件 一 样 可 以 灵活 编程 
和 修改 ，SDN 的 概念 应 运 而 生 。 

软件 定义 网 络 (Software Defined Network，SDN) 顾名思义 ，SDN 使 得 网 络 能 够 像 
一 个 通用 软件 一 样 ， 易 于 修改 ， 易 于 增加 新 业务 ， 使 网 络 更 加 敏捷 。 

SDN 网 络 架构 的 核心 是 在 网 络 中 引入 了 一 个 SDN 控制 器 (下 文中 的 控制 器 、 网 络 
控制 器 都 是 指 SDN 控制 器 )， 实 现 转 控 分 离 和 集中 控制 。SDN 控制 器 就 如 同 网 络 的 大 
脑 ， 可 以 完成 对 管辖 范围 内 的 设备 的 控制 ， 这 些 被 控制 的 设备 称 为 转发 器 。 转 发 器 如 
同 手脚 ， 本 身 基 本 不 具备 智能 ， 听 命 于 控制 器 控制 ， 其 转发 所 依赖 的 数据 完全 来 自控 
制 器 的 计算 和 生成 。 

SDN 网 络 试图 解决 传统 网 络 遇 到 的 问题 ， 包 括 转 发 路 径 调整 困难 、 网 络 复杂 、 运 行 
维护 困难 、 业 务 创新 速度 慢 等 。 那 么 SDN 又 是 如 何 克 服 这 些 问 题 的 呢 ? 先 看 一 下 SDN 
网 络 架构 ,其 关键 是 在 网 络 架 构 中 增加 了 一 个 SDN 控制 器 , 把 原来 的 分 布 式 控制 平面 集 
中 到 一 个 SDN 控制 器 上 ， 由 这 个 集中 的 控制 器 来 实现 网 络 集中 控制 。SDN 网 络 架构 具 
备 转 控 分 离 、 集 中 控制 、 开 放 接 口 三 个 基本 特征 ， 如 图 1-7 所 示 。 







SDN 控制 器 的 基本 特征 : 
1. 转 控 分 离 





图 1-7 SDN 网 络 架 构 


当 对 网 络 进行 集中 控制 , 把 控制 平面 集中 到 SDN 控制 器 之 后 , 原先 大 量 的 分 布 式 控 
制 平面 所 需要 的 分 布 式 控制 协议 就 不 需要 了 ， 比 如 各 种 MPLS 协议 、 组 播 协议 、MBGP 等 ， 
因为 SDN 控制 器 可 以 通过 其 内 部 的 各 种 控制 程序 为 每 个 路 由 器 (在 SDN 时 代 ， 我 们 称 
之 为 转发 器 ) 计算 出 其 MPLS 路 由 、 组 播 路 由 、 业 务 路 由 等 ， 这 样 ， 集 中 在 控制 器 的 
算法 软件 替代 了 传统 的 各 种 域内 的 路 由 协议 。 通 过 这 种 集中 控制 技术 ， 可 以 大 量 减少 
网 络 中 各 种 协议 的 部 署 ， 从 而 简化 网 络 架构 ， 也 就 意味 着 网 络 本 身 的 简化 ， 使 得 网 络 
更 加 容易 维护 管理 ， 也 降低 了 对 维护 管理 人 员 的 技能 要 求 ， 从 而 大 大 降低 了 网 络 运行 
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维护 的 成 本 。 

当 网 络 集中 控制 并 开放 编程 接口 时 ， 如 果 需 要 进行 各 种 网 络 业务 创新 以 满足 新 的 需 
求 和 想法 时 ， 可 以 简单 地 通过 修改 、 替 换 控制 器 的 控制 程序 或 者 在 控制 器 内 部 增加 新 的 
软件 程序 来 实现 新 业务 。 大 量 的 按 需 路 径 调整 、 业 务 灵活 控制 等 需求 ， 都 可 以 在 不 修改 
和 不 升级 路 由 器 《转发 器 ) 软件 的 情况 下 ， 仅 仅 通过 调整 控制 器 程序 就 得 以 完成 。 也 就 
是 说 ， 对 于 一 个 新 业务 的 部 署 ， 不 再 需要 定义 标准 实现 互通 过 程 ， 而 是 仅仅 在 SDN 控制 
器 内 增加 或 者 修改 一 个 软件 程序 就 可 以 完成 ， 这 使 得 网 络 新 业务 的 部 署 可 以 从 原来 的 
3 一 5 年 时 间 压 缩 到 几 个 月 甚至 几 周 时 间 。 这 对 于 网 络 运营 商 非常 重要 ， 因 为 这 样 可 以 通 
过 各 种 创新 业务 的 部 署 增加 网 络 的 收益 ， 并 在 竞争 中 领先 。 

和 传统 网 络 架构 相 比 ，SDN 网 络 架 构 增 加 了 SDN 控制 器， 因此 需要 在 SDN 控制 器 
之 间 增 加 一 个 南北 向 转 控 分 离 协 议 ， 用 于 控制 器 和 转发 器 之 间 的 控制 信息 交互 。 目 前 最 
重要 的 控制 协议 就 是 OpenFlow 协议 ， 该 协议 定义 了 控制 器 和 转发 器 之 间 的 通信 标准 。 
尽管 目前 OpenFlow 协议 还 没有 完全 成 熟 , 但 是 随 着 SDN 网 络 架构 的 部 署 和 实施 ， 这 个 
转 控 分 离 协议 也 在 走向 成 熟 。 当 然 , 控制 协议 不 仅仅 只 有 OpenFlow, 其 他 如 PCEP、BGP、 
Netconf 等 控制 信 令 也 可 以 完成 控制 器 到 转发 器 之 间 的 控制 指令 的 下 发 。 这 些 传统 的 控制 
协议 在 OpenFlow 没有 成 熟 时 ， 用 来 对 网 络 进行 集中 控制 ， 可 以 有 效 地 解决 现 有 网 络 逐 
步 向 SDN 网 络 演进 时 所 需 的 互 操作 要 求 。 


1.2.2 ”SDN 控制 器 不 是 网 管 ， 也 不 是 规划 工具 


自 SDN 概念 兴起 以 来 ， 针 对 SDN 有 各 种 理解 ， 有 的 认为 网 管 就 是 SDN， 并 提出 了 
实时 OSS 概念 ， 这 是 所 谓 网 管 思 路 的 SDN。 这 种 思路 认为 只 要 把 OSS 的 业务 自动 发 放 
做 得 更 加 实时 就 是 SDN 了 ,同时 如 果 把 OSS 的 北向 接口 开放 ， 也 能 支持 北向 开放 接口 。 
我 不 认为 网 管 是 SDN， 因 为 SDN 网 络 架构 有 三 个 基本 特征 ， 转 控 分 离 、 集 中 控制 、 开 
放 接 口 。 网 管 不 能 实现 转 控 分 离 和 集中 控制 ， 所 以 不 能 算是 一 种 SDN， 而 且 通 过 改进 
OSS 实时 性 而 形成 的 系统 ， 本 质 上 不 能 改变 其 还 是 管理 面 的 事实 。 既 然 仅 仅 是 管理 面 ， 
当然 也 就 不 能 带 来 SDN 的 相关 价值 ， 比 如 简化 网 络 协议 , 简化 网 络 运行 维护 , 提升 网 络 
业务 创新 速度 ， 所 以 实时 OSS 仍然 是 OSS， 不 是 控制 器 。 不 过 OSS 做 得 更 加 实时 对 用 
户 是 有 好 处 的 ， 解 决 了 用 户 业 务 自 动 化 问题 。 当 然 ， 如 果 利 用 OSS 系统 实现 了 网 络 的 集 
中 控制 ， 则 实时 OSS 可 以 算是 一 种 SDN。 有 的 厂家 可 以 采用 开源 控制 器 来 实现 自己 的 
控制 器 ， 有 的 厂家 可 以 使 用 原来 的 分 布 式 控制 系统 改造 为 控制 器 ， 通 过 网 管 来 改造 也 是 
一 条 路 。 

有 人 认为 规划 工具 就 是 SDN 控制 器 。 规 划 工 具 和 网 络 控制 器 其 实 解决 的 问题 不 同 。 
规划 工具 是 在 网 络 扩容 时 ， 解 决 到 底 该 如 何在 网 络 中 增加 节点 、 增 加 链 路 ， 需 要 考虑 增 
加 节点 的 位 置 、 增 加 链 路 的 数量 ， 其 评估 约束 包括 预期 流量 模型 、 成 本 约束 、 政 策 约 束 、 
地 理 条 件 约束 等 。 规 划 工 具 的 最 终 目标 是 给 出 一 个 在 什么 位 置 增加 机 房 ， 在 哪些 机 房 之 
间 埋 下 光纤 ， 最 终 使 扩容 后 网 络 能 够 满足 未 来 的 网 络 流量 增长 需求 。 而 控制 器 是 运行 在 
一 个 既 有 的 网 络 拓扑 上 的 控制 反馈 系统 ， 其 主要 功能 是 对 网 络 进行 实时 控制 反馈 ， 确 保 
当 网 络 状态 发 生变 化 时 能 够 重新 收敛 路 由 ， 使 得 网 络 能 够 继续 正常 提供 服务 ， 所 以 它 和 
规划 工具 不 是 一 回 事 。 当 然 , 未 来 在 SDN 网 络 环 境 下 ,规划 工具 和 控制 器 是 有 一 定 的 关 
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联 的 。 在 传统 网 络 里 ， 规 划 工具 生成 网 络 扩容 规划 之 后 ， 当 网 络 按照 规划 工具 给 出 的 建 
议 施 工 完 成 ， 分 布 式 控制 系统 对 这 个 新 网 络 的 利用 和 当初 规划 设想 的 情况 可 能 不 同 ， 导 
致 规划 工具 认为 某 些 流量 该 走 到 新 建 路 径 上 ， 而 实际 上 分 布 式 控制 面 却 没有 办 法 让 这 些 
流量 走 在 新 建 路 径 上 , 这 就 是 规划 和 实际 运行 的 网 络 系统 之 间 的 隔 头 。 而 未 来 在 SDN 网 
络 环境 下 , 规划 工具 的 流量 预期 想法 可 以 直接 通过 SDN 控制 器 完成 实施 , 使 实际 的 网 络 
流量 路 径 和 规划 时 设想 的 一 致 。 


1.3 SDN 网络 价值 


1.3.1 ”从 技术 角度 看 SDN 网 络 的 价值 


关于 SDN 网 络 的 价值 ， 从 SDN 开始 的 那 一 天 起 就 没有 停止 过 和 争论。 大体 上 ， 人 们 
从 两 个 方面 来 理解 SDN 的 网 络 价值 ， 即 技术 层面 和 客户 需求 层面 。 

技术 上 的 SDN 网 络 价值 是 理论 上 的 SDN 网 络 价 值 ， 是 技术 驱动 网 络 进步 的 典型 ， 
有 点 像 乔 布 斯 说 的 客户 并 不 知道 他 们 需要 什么 ， 只 有 你 把 东西 呈现 在 他 们 面前 ， 他 们 才 
知道 这 就 是 他 们 想 要 的 。 技 术 上 的 价值 不 是 从 客户 出 发 ， 却 能 给 客户 带 来 他 们 所 需要 的 
价值 ，SDN 网 络 的 理论 价值 主要 包括 以 下 几 点 。 

1. 网 络 业务 快速 创新 

SDN 的 可 编程 性 和 开放 性 ， 使 得 我 们 可 以 快速 开发 新 的 网 络 业务 ， 加 速 业 务 创新 。 
如 果 希 望 在 网 络 上 部 署 什么 新 业务 , 可 以 通过 针对 SDN 软件 的 修改 和 增强 实现 网 络 快速 
编程 、 业 务 快 速 上 线 验证 的 能 力 。 如 果 这 个 新 业务 有 价值 则 保留 ， 没 有 价值 也 可 以 快速 
下 线 。 不 像 传统 网 络 那样 ， 一 个 新 业务 上 线 需要 经 过 需求 提出 、 标 准 讨 论 和 定义 、 开 发 
商 开 发 标准 协议 ， 然 后 在 网 络 上 升级 所 有 的 网 络 设备 ， 需 要 经 过 数 年 才能 完成 。SDN 使 
得 新 业务 的 上 线 周期 从 原先 的 几 年 缩短 到 几 个 月 或 者 更 快 。 

2. 简化 网 络 

SDN 网 络 架 构 简 化 了 网 络 ， 消 除了 很 多 IETF 的 协议 ， 这 就 可 以 使 学 习 成 本 下 
降 ， 运 行 维护 成 本 下 降 ， 业 务 部 署 速度 提升 。 这 个 价值 主要 得 益 于 SDN 网 络 架 构 
下 的 网 络 集中 控制 和 转 控 分 离 。 因 为 网 络 集中 控制 ， 所 以 被 SDN 控制 器 所 控制 的 
网 络 内 部 的 很 多 协议 基本 就 不 需要 了 , 比如 RSVP、LDP、MBGP、PIM 组 播 协议 等 。 
原因 是 网 络 内 部 的 路 径 计算 和 建立 全 部 在 控制 器 完成 ， 控 制 器 计算 完成 网 络 路 径 
后 ， 直 接 下 发 给 转发 器 就 可 以 了 ， 并 不 需要 协议 。 未 来 ， 大 量 的 传统 东西 向 协议 也 
会 消失 , 而 南北 向 控制 协议 比如 OpenFlow 协议 则 会 不 断 地 演进 以 满足 SDN 网 络 架 
构 的 需求 。 

3. 网 络 设备 白 牌 化 

SDN 的 另外 一 个 价值 是 ， 基 于 SDN 架构 ， 如 果 标 准 化 了 控制 器 和 转发 器 之 间 的 接 
口 ， 比 如 OpenFlow 协议 逐渐 成 熟 ， 那 么 硬件 设备 白 牌 化 就 会 成 为 可 能 ， 从 而 出 现 专门 
的 白 牌 设备 厂商 ， 结 果 就 是 转发 设备 采购 成 本 的 下 降 ， 甚 至 会 出 现 专 门 的 OpenFlow 转 
发 芯片 供应 商 。 这 种 OpenFlow 芯片 如 同 在 PC 领域 的 INTEL 供应 的 CPU， 控 制 器 则 是 
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类 似 微软 这 样 的 厂家 供应 的 Windows 操作 系统 ， 而 上 面 会 产生 大 量 的 网 络 应 用 。 这 就 是 
所 谓 的 系统 从 垂直 集成 开发 走向 水 平 集成 。 垂 直 集 成 是 一 个 厂家 能 够 同时 供应 软件 、 硬 
件 和 服务 ， 水 平 集成 则 是 把 系统 水 平分 工 ， 每 个 厂家 分 别 完 成 产品 的 一 个 部 件 ， 然 后 集 
成 商 把 它们 集成 起 来 销售 。 水 平分 工 有 利于 系统 各 个 部 分 的 独立 演进 和 更 新 , 快速 进化 ， 
促进 竞争 ， 促 进 各 个 部 件 采购 价格 的 下 降 。 

这 种 网 络 白 牌 化 趋势 是 存在 的 ， 但 是 现在 所 有 的 主流 厂商 都 不 愿 看 到 这 点 。 目 前 卫 
设备 主流 供应 商 没有 一 家 愿意 做 白 牌 ， 只 有 一 些小 的 初创 公司 尝试 搞 这 种 白 牌 设备 。 这 
是 一 个 产业 链 问 题 ， 这 个 链条 上 从 最 后 的 购买 客户 到 前 端的 设备 商 、 芯 片 供 应 商 等 ， 互 
相 有 牵制 作用 ， 如 果 产 业 链 中 任 一 方 全 力 过 制 ， 那 么 这 个 趋势 可 能 会 来 得 很 慢 ， 但 是 这 
种 白 牌 化 趋势 是 不 可 改变 的 ， 尤 其 一 些 中 低 端 设备 会 逐渐 出 现 此 类 设备 。 也 就 是 说 ， 白 
牌 化 趋势 是 SDN 的 一 个 理论 价值 ， 但 是 实践 中 取决 于 产业 链 厂 家 的 竞争 策略 。 

4. 业务 自动 化 

在 SDN 网 络 架 构 下 ， 由 于 整个 网 络 归 属 控制 器 控制 ， 所 以 网 络 业 务 自动 化 是 理 所 
当然 的 ， 不 需要 另外 的 系统 进行 配置 分 解 。 传 统 的 OSS 在 为 用 户 提 供 网 络 业 务 服务 时 ， 
必须 对 设备 的 北向 接口 进行 业务 包装 工作 ， 但 是 在 SDN 架构 下 ，SDN 控制 器 自己 就 可 
以 完成 网 络 业 务 的 部 署 ， 屏 蔽 网 络 内 部 细节 ， 提 供 网 络 业务 自动 化 能 

5. 网 络 路 径 优 化 和 流量 调 优 

SDN 还 有 一 些 价 值 点 ， 比 如 流量 调 优 和 路 径 优化 。 传 统 网 络 通常 的 路 径 选 择 算法 是 
走 最 短路 径 ， 前 面 介 绍 过 ， 这 样 的 结果 是 网 络 中 最 短路 径 上 的 流量 可 能 非常 拥挤 ， 可 是 
其 他 的 非 最 短路 径 却 非常 空间 。 当 采用 SDN 网 络 架 构 时 ，SDN 控制 器 可 以 根据 网 络 流 
量 状 态 智 能 调整 网 络 路 径 ， 达 到 提升 整 网 吞吐 量 的 目的 。 事 实 上 ， 传 统 网 络 中 也 采用 了 
一 些 流量 工程 技术 来 解决 此 类 最 短路 径 拥塞 问题 ， 比 如 MPLS TE 就 是 一 种 流量 工程 技 
术 ， 但 是 这 种 技术 类 似 其 他 传统 协议 都 是 全 分 布 式 的 ， 会 导致 前 面 介绍 的 业务 次 序 依赖 
问题 ， 另 外 ， 因 为 传统 的 流量 工程 协议 RSVP 的 软 状态 机 制 ， 导 致 其 无 法 大 规模 部 署 。 
未 来 采用 SDN 架构 ， 直 接 可 以 集中 业务 路 径 计算 ， 并 直接 建立 隧道 ， 不 需要 RSVP， 这 
样 不 仅 能 够 解决 实时 流量 路 径 动 态 调整 的 问题 ， 提 升 网 络 利 用 率 ， 同 时 能 够 解决 业务 次 
序 依 赖 问题 。 


1.3.2 ”从 客户 角度 看 SDN 网 络 的 价值 


1. 网 络 业务 自动 化 

在 原来 的 分 布 式 网 络 架 构 中 ， 完 成 一 个 网 络 业 务 自动 化 的 方法 是 通过 网 管 或 者 OSS 
来 实现 。 网 管 把 网 络 业 务 配置 分 解 为 每 个 网 元 的 配置 并 下 发 给 路 由 器 ， 也 可 以 通过 对 每 
个 路 由 器 进行 独立 配置 ， 然 后 整个 网 络 的 所 有 参与 业务 的 网 元 都 配置 完成 ， 整 网 业务 就 
可 以 运行 了 。 其 中 存在 的 较 大 问题 是 网 络 中 的 各 个 网 元 的 配置 一 致 性 问题 ， 如 果 哪 个 网 
元 配置 出 现 一 点 错误 ， 就 会 导致 网 络 业务 受 损 ， 有 时 甚至 可 能 导致 环 路 等 严重 问题 。 这 
些 配置 的 精确 程度 和 一 个 程序 员 在 写 程序 是 一 样 的 ， 不 能 错 一 个 符号 ， 所 以 保证 配置 一 
致 性 是 一 件 非 常 困 难 的 事情 ， 尤 其 当 网 元 配置 可 能 来 自 多 个 配置 源 时 间 题 更 加 严重 。 而 
通过 网 管 来 完成 业务 自动 发 放 也 存在 多 厂家 设备 的 网 元 配置 风格 不 一 样 ， 带 来 很 多 适 配 
开发 工作 量 。 所 以 客户 特别 希望 能 够 提供 业务 自动 化 能 力 。 
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尤其 是 在 数据 中 心 领 域 ， 租 户 希 望 快 速 获得 数据 中 心 的 计算 、 存 储 资源 租用 ， 希 望 
能 够 在 分 钟 级 别 或 者 秒 钟 级 别 完成 计算 资源 和 存储 资源 的 租用 。 而 这 些 租用 的 计算 、 存 
储 资源 需要 和 其 他 的 租户 进行 隔离 ， 所 以 必须 支持 数据 中 心 网 络 的 虚拟 化 功能 ， 以 便 用 
虚拟 网 络 来 隔离 这 些 租户 之 间 的 租用 资源 。 既 然 用 户 需 求 是 最 快 秒 钟 级 完成 资源 租用 ， 
结果 是 虚拟 网 络 也 需要 完成 秒 钟 级 别 的 业务 开通 ， 以 支持 租户 的 计算 、 存 储 资源 的 快速 
租用 能 力 。 这 样 就 需要 支持 数据 中 心虚 拟 网 络 的 快速 业务 自动 部 署 能 力 。 一 些 互联 网 厂 
家 已 经 开始 提供 此 类 IAAS 基础 服务 ， 所 以 在 运营 商 网 络 数据 中 心 内 的 网 络 业务 自动 化 
以 及 其 他 资源 管理 分 配 的 自动 化 需求 极其 强烈 ， 而 且 已 经 成 为 构建 新 型 数据 中 心 的 必需 
条 件 。 数 据 中 心 管理 员 希 望 能 够 有 一 套 系统 能 够 快速 给 客户 提供 计算 、 存 储 服务 ， 而 不 
需要 了 解数 据 中 心 内 具体 的 技术 细节 , 这 就 需要 SDN 网 络 来 提供 这 种 能 力 。 这些 恰恰 是 
传统 网 络 不 擅长 的 。 

2. 网 络 流量 调整 简单 化 

客户 希望 自己 能 够 很 容易 控制 网 络 上 的 流量 ， 比 如 ， 从 哪个 自治 系统 把 流量 引入 自 
己 的 自治 系统 ; 如 何 把 自己 系统 的 流量 送出 去 , 根据 策略 选择 一 个 合适 的 自治 系统 发 送 ; 
或 者 域内 的 流量 到 底 该 如 何 走 ， 而 不 是 简单 地 走 最 短路 径 转 发 用 户 流 量 。 这 些 都 是 流量 
路 径 调整 功能 需求 ， 背 后 可 能 是 因为 费用 问题 ， 也 可 能 是 运营 商 希望 对 自己 的 客户 提供 
区 分 服务 ， 把 一 些 VIP 客户 的 流量 引导 到 质量 好 的 最 短路 径 上 ， 其 他 客户 的 流量 则 可 以 
经 过 普通 路 径 来 转发 ;还 可 能 是 在 网 络 上 的 流量 分 布 不 均 导致 网 络 利用 率 不 高 的 情况 下 ， 
就 必须 升级 网 络 、 扩 容 网 络 ， 为 了 延迟 升级 、 扩 容 网 络 ， 运 营 商 希望 通过 流量 路 径 调整 
提升 网 络 利用 率 ， 以 推迟 网 络 升 级 进度 ， 通 过 这 种 方式 节省 成 本 。 

3. 业务 快速 创新 

客户 提出 业务 快速 创新 需求 ， 但 是 什么 是 业务 快速 创新 呢 ? 这 里 简单 介绍 一 下 到 底 
什么 是 业务 快速 创新 , 每 个 人 都 在 说 SDN 可 以 支持 业务 快速 创新 , 但 并 不 是 每 个 人 都 清 
楚 他 们 互相 之 间 在 谈论 什么 下 面 举 两 个 例子 。 

一 种 网 络 业 务 快速 创新 指 的 是 ， 比 如 ， 一 个 终端 用 户 希 望 能 够 更 加 快速 地 订购 一 个 
L2VPN 业务 ， 他 希望 临时 在 自己 的 机 器 和 另外 一 个 数据 中 心 之 间 提 供 一 个 1 小 时 的 
1Gbit/s 专用 通道 服务 ;或 者 一 个 公司 希望 能 够 在 一 周 时 间 之 内 开通 一 个 L3VPN 业务 。 
如 果 说 运营 商 网 络 中 已 经 能 够 提供 创建 一 个 L2VPN 或 者 创建 一 个 L3VPN 的 服务 接口 ， 
那么 人 们 可 以 开发 这 样 一 个 小 程序 ， 通 过 把 用 户 、 计 费 、 网 络 提 供 的 L2VPN/L3VPN 这 
些 服务 接口 功能 放 在 一 个 软件 中 实现 ， 并 提供 一 个 快速 的 L2VPN/L3VPN 的 订购 服务 ， 
例如 客户 可 以 在 淘宝 上 直接 订购 一 个 L2VPN, 然后 几 分 钟 之 内 在 本 地 计算 机 和 数据 中 心 
租用 的 计算 机 之 间 就 可 以 有 一 个 专线 服务 了 。 这 算是 一 种 网 络 业 务 创新 ， 但 是 本 质 上 ， 
此 时 网 络 已 经 提供 网 络 作为 服务 (Network as a Service, NaaS), 比如 L2VPN、L3VPN 服务 ， 
这 些 业务 创新 应 用 会 调用 网 络 提供 的 这 些 服务 来 完成 某 些 新 业务 。 

另外 一 种 网 络 业务 快速 创新 是 指 ， 如 果 网 络 现在 还 不 能 提供 上 面 说 的 L2VPN、 
L3VPN 服务 , 该 怎么 办 ? 传统 网 络 就 很 为 难 ， 可 能 需要 讨论 需求 、 定 义 标准 、 升 级 设备 ， 
数 年 才能 实现 这 样 的 网 络 业务 。 但 是 如 果 在 SDN 网 络 架 构 下 ， 通 过 升级 更 新 SDN 控制 
器 上 的 一 个 软件 ， 就 可 以 快速 完成 这 个 网 络 业 务 的 提供 ， 从 原来 数 年 缩减 到 几 个 月 或 者 
几 周 都 是 有 可 能 的 。 这 样 ，SDN 就 能 实现 网 络 本 身 能 够 快速 提供 新 业务 的 能 
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上 述 两 种 网 络 业 务 创新 需求 都 是 可 能 存在 的 ， 在 SDN 网 络 架 构 下 ， 后 者 可 能 更 加 
趋 于 技术 和 理论 的 价值 ， 而 前 者 可 能 是 客户 理解 的 创新 的 价值 ， 但 是 未 来 两 种 需求 应 
该 都 是 有 的 。 没 有 必要 争论 到 底 哪个 是 正确 的 网 络 业 务 快速 创新 的 理解 。 前 者 在 某 种 
意义 上 是 对 OSS 的 一 种 革命 ， 如 果 能 够 定义 统一 的 标准 的 Naag 接口 ， 意 味 着 未 来 各 
种 基于 这 些 NaaS 接口 开发 各 种 创新 业务 成 为 可 能 ， 即 使 不 能 定义 统一 的 北向 业务 接 
口 ， 如 果 只 有 那么 两 三 家 主流 控制 器 系统 ， 那 么 这 些 主流 厂家 的 控制 器 北向 业务 接口 
基本 上 也 是 事实 标准 了 ， 许 多 人 可 以 基于 这 个 接口 开发 自己 的 创新 应 用 。 而 后 者 则 是 
改进 网 络 本 身 提 供 服务 的 速度 ， 比 如 ， 对 于 一 个 没有 专线 业务 能 力 的 网 络 ， 需 要 多 长 
时 间 能 够 实现 专线 业务 能 力 ， 后 者 的 价值 就 在 于 能 够 快速 增强 网 络 本 身 的 业务 服务 提 
供 速度 。 

所 以 关于 网 络 业务 快速 创新 ， 有 两 种 解释 ， 运 营 商 客户 可 以 自行 理解 自己 到 底 需 要 
的 是 哪个 。 这 里 两 种 快速 业务 创新 观点 并 没有 对 错 之 分 ， 只 是 要 理解 这 两 层 意思 ， 然 后 
应 用 到 实践 中 就 可 以 。 我 们 通常 把 网 络 内 部 的 业务 应 用 称 为 网 络 控制 业务 应 用 ， 比 如 
L2VPN、L3VPN 控制 程序 ， 这些 应 用 通常 要 操作 网 络 内 部 的 具体 的 转发 器 ， 并 属于 控制 
器 的 一 个 部 分 ， 而 上 层 调用 控制 器 提供 的 网 络 业 务 接口 的 程序 通常 称 为 业务 应 用 层 ， 仅 
仅 调用 控制 器 提供 的 北向 网 络 业 务 接口 提供 的 网 络 服务 ， 比 如 OSS 或 者 Openstack 算是 
此 类 应 用 。 
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SDN 网 络 能 够 给 客户 带 来 各 种 价值 ， 包 括 流量 路 径 实 时 动态 调整 、 简 化 网 络 、 实 现 
业务 自动 化 、 实现 业务 快速 创新 。 支撑 SDN 实现 这 些 价值 的 最 重要 核心 因素 , 正 是 SDN 
的 关键 特征 : 转 控 分 离 、 集 中 控制 和 开放 接口 。 

转 控 分 离 和 集中 控制 后 , SDN 控制 器 可 以 通过 一 个 软件 算法 来 计算 网 络 内 部 的 交换 
路 径 ， 并 生成 转发 表 ， 直 接 下 发 给 转发 器 。 这 样 ， 原 来 的 大 量 域内 路 由 协议 被 控制 器 上 
的 软件 替代 了 ， 从 而 简化 了 网 络 协议 。 所 以 ，SDN 转 控 分 离 和 集中 控制 的 特征 带 来 了 网 
络 协议 的 简化 。 

”通过 SDN 控制 器 ， 可 以 把 网 络 抽象 为 一 台 虚 拟 的 软件 路 由 器 。SDN 控制 器 可 以 直 
接 提供 相关 的 网 络 业务 接口 ， 这 些 北向 网 络 业 务 接口 把 网 络 看 成 黑 盒 ， 使 用 北向 网 络 业 
务 接口 的 程序 或 者 网 络 管理 员 不 必 理 解 网 络 内 部 的 细节 ， 不 像 传统 网 络 ， 每 台 设 备 都 包 
括 业 务实 现 的 相关 技术 细节 。 比 如 实现 PW 业务 时 ， 用 户 需要 知道 采用 MPLS 作为 隧道 
技术 ， 还 需要 知道 配置 和 使 用 LDP 为 PW 分 配 标签 ， 再 比如 实现 L3VPN 业务 ， 用 户 需 
要 选择 隧道 技术 ， 必 须知 道 配 置 MBGP 的 细节 ， 包 括 RD、RT 等 ， 才 能 实现 L3VPN 业 
务 的 创建 。SDN 控制 器 的 北向 网 络 业务 接口 是 面向 模型 的 ， 可 以 直接 被 用 户 调用 来 创建 
一 个 完整 的 网 络 业务 ,有 利于 实现 网 络 业务 自 动 化 。 正 是 因为 SDN 控制 器 实现 了 集中 控 
制 ， 才 带 来 网 络 业务 的 自动 化 能 力 。 

SDN 控制 器 可 以 获取 实时 网 络 状态 ， 了 解 网 络 的 接口 带宽 利用 率 、 网 络 的 业务 流量 
情况 ， 当 控制 器 发 现 网 络 出 现 局 部 拥塞 时 ， 可 以 根据 策略 对 网 络 流量 进行 实时 调整 。 能 
这 样 做 的 原因 ， 正 是 SDN 控制 器 的 集中 控制 能 力 。 

而 SDN 的 开放 接口 特征 则 可 以 支持 网 络 业 务 的 快速 创新 能 力 。 因 为 只 有 SDN 网 络 
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具备 开放 接口 能 力 ， 才 能 在 网 络 上 通过 简单 地 修改 软件 、 增 加 软件 来 实现 网 络 新 功能 ， 
并 快速 在 网 络 上 部 署 。 所 以 SDN 网 络 的 开放 接口 “可 编程 ) 能 力 对 于 SDN 来 说 是 至 关 
重要 的 。 

认识 到 SDN 网 络 的 可 编程 性 是 重要 的 竞争 性 要 素 后 ， 就 找到 了 衡量 SDN 网 络 解决 
方案 竞争 力 关 键 的 一 个 要 素 : SDN 控制 器 的 重要 竞争 性 指标 一 一 可 编程 性 。 当 然 ， 对 于 
控制 器 还 有 其 他 质量 属性 ， 比 如 性 能 、 可 靠 性 、 安 全 性 ， 这 些 质量 属性 在 传统 网 络 设 备 
中 都 是 关键 因素 ， 也 都 非常 重要 ， 但 是 传统 网 络 没 有 强调 可 编程 这 个 属性 。 从 可 编程 的 
角度 看 ,与 其 紧密 相连 的 就 是 SDN 控制 器 的 开放 性 , 开放 的 可 编程 系统 才能 激活 产业 链 ， 
让 众多 厂商 可 以 利用 开放 的 控制 器 来 进行 应 用 程序 开发 , 这 些 构成 了 SDN 最 为 本 质 的 技 
术 支 撑 要 素 。 可 编程 性 和 开放 性 为 什么 重要 ? 因为 在 传统 的 网 络 系统 中 没有 被 强调 ， 也 
没有 作为 核心 关键 要 素来 对 待 。 在 SDN 网 络 架构 下 ， 开 放 接 口 〈 可 编程 ) 是 新 的 要 素 ， 
而 且 是 重要 的 质量 属性 。 

如 何 理解 开放 接口 可 编程 这 个 概念 ?其 实 传统 网 络 也 是 能 够 编程 的 ， 比 如 设备 的 软 
件 是 可 以 编程 的 ， 而 设备 的 北向 接口 更 是 开放 的 ， 不 同 的 是 ， 原 来 设备 上 的 软件 的 可 编 
程 只 是 设备 商 自己 才能 编程 ， 其 他 组 织 和 个 人 是 不 能 对 设备 运行 的 软件 进行 编程 的 ， 也 
就 是 说 这 个 软件 尽管 可 编程 可 修改 ， 但 不 是 开放 的 。 尽 管 近 些 年 也 有 一 些 主流 厂商 提供 
设备 上 的 软件 编程 能 力 ， 并 开放 给 第 三 方 ， 但 是 开放 的 范围 非常 有 限 ， 通 常 是 开放 设备 
上 的 一 些 告警 、 简 单 事件 接口 ， 这 种 开放 是 非常 有 限 的 ， 不 能 支持 业务 快速 创新 。 另 一 
方面 ， 尽 管 各 个 供应 商 设 备 都 开放 了 一 些 接口 ， 但 是 他 们 并 没有 统一 的 标准 接口 ， 如 果 
一 个 第 三 方 想 编写 一 个 程序 ， 他 不 得 不 编写 很 多 遍 ， 给 每 个 厂家 的 设备 定制 开发 程序 ， 
这 也 是 这 种 所 谓 开 放 没 有 被 广泛 使 用 和 获得 认可 的 原因 。 

同样 道理 ， 尽 管 设备 的 北向 业务 操作 接口 都 是 开放 的 ， 但 是 仍然 面临 两 个 问题 : 第 
一 个 问题 是 各 个 厂家 的 北向 接口 各 不 相同 , 所 以 通常 上 面 运行 的 OSS 系统 要 适 配 很 多 套 
厂家 的 命令 行 、MIB 等 北向 接口 ， 这 也 是 导致 一 些 基 于 网 络 设备 上 开发 的 一 些 程序 上 市 
周期 长 的 原因 之 一 ; 第 二 个 问题 是 传统 网 络 设备 的 北向 接口 通常 不 是 面向 模型 的 ， 而 是 
面向 过 程 的 。 因 为 主流 卫 设备 供应 商 从 一 开始 就 把 基本 网 络 配置 风格 定义 成 过 程式 的 ， 
这 种 面向 过 程 的 命令 行 风 格 本 质 上 是 一 种 人 机 界面 ， 不 是 机 机 界面 ， 非 常 不 适合 编程 。 
当然 ， 近 些 年 也 出 现 了 基于 NETCONF 的 面向 模型 的 配置 管理 ， 很 多 主流 厂家 ， 包 括 华 
为 等 厂家， 也 都 实现 了 各 种 业务 的 模型 配置 管理 方式 ， 但 是 仍然 苦于 各 个 三 家 的 模型 不 
一 致 ， 导 致 开发 面向 最 终 用 户 的 应 用 程序 很 困难 。 

总 之 ， 传 统 网 络 不 是 不 可 编程 ， 而 是 编程 能 力 差 ， 设 备 开 放 性 更 是 存在 问题 ， 而 北 
向 业务 接口 的 不 同 进一步 妨碍 了 各 种 网 络 业 务 的 快速 部 署 能 力 ， 使 得 传统 网 络 无 法 快速 
创新 业务 。 在 新 技术 日 新 月 异 的 今天 ， 传 统 网 络 架 构 的 这 种 慢 吞 吞 的 节奏 已 经 落伍 了 ， 
而 SDN 网 络 架构 的 开放 可 编程 能 力 恰恰 可 以 加 速 网 络 业 务 创新 速度 ,加速 网 络 新 业务 上 
线 速 度 ， 给 客户 创造 更 多 价值 、 带 来 更 多 收益 。 也 就 是 说 ，SDN 网 络 架构 比 起 传统 网 络 
编程 能 力 更 加 强大 ， 开 放 性 更 好 。 在 SDN 网 络 架构 下 ， 在 网 络 中 增加 了 SDN 控制 器 ， 
整个 网 络 由 控制 器 实现 了 集中 控制 。 这 个 SDN 控制 器 本 质 上 是 一 个 软件 系统 , 所 以 在 修 
改 网 络 业 务 时 ， 只 需要 在 这 个 网 络 控制 器 上 增加 、 修 改 软件 就 可 以 实现 了 ， 不 需要 设备 
开发 升级 软件 ， 所 以 它 的 开放 可 编程 能 力 更 强 。 另 外 一 个 方面 ， 如 果 这 个 控制 器 软件 系 
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统 包含 的 范围 越 大 ， 那 么 这 些 被 包含 的 范围 都 是 可 以 编程 的 。 传 统 网 络 是 管理 集中 ， 现 
在 SDN 网 络 架 构 把 控制 平面 也 集中 了 ,所 以 控制 平面 也 可 以 编程 。 集中 的 越 多 ,可 编程 
的 内 容 就 越 多 ， 可 编程 能 力 就 越 强 , 所 以 SDN 网 络 具有 更 强 的 可 编程 能 力 。 转 发 平面 或 
者 数据 平面 不 能 集中 ， 因 为 这 是 不 符合 网 络 的 基本 通信 原理 的 。 

图 1-8 说 明了 SDN 网 络 为 什么 开放 可 编程 能 力 更 强 。SDN 网 络 被 定义 为 集中 控制 ， 
其 控制 平面 可 编程 。 下 面 通过 比较 网 络 实现 一 个 MPLS TE 流量 工程 ) 特性 来 进行 对 比 
说 明 : 在 传统 方式 下 ， 需 要 定义 IGP 路 由 协议 比如 OSPF/ISIS 的 TE 扩展 标准 ， 需 要 实 
现 RSVP， 把 这 些 标准 化 工作 完成 后 ， 各 个 厂家 开发 自己 的 路 由 器 上 的 标准 协议 ， 然 后 发 
布 这 些 协议 特性 ， 再 升级 现 网 路 由 器 设备 ， 上 网 进行 互通 验证 和 TE 部 署 ， 同 时 管理 平 
面 也 要 升级 。 这 样 经 过 数 年 时 间 ，MPLS TE 才 可 以 上 线 运行 。 而 如 果 使 用 SDN 网 络 架 
构 方案 ， 只 要 在 控制 器 上 开发 一 个 MPLS TE 程序 ， 把 路 径 计 算出 来 ， 直 接 下 发 转发 表 
给 转发 器 ， 转 发 器 只 要 支持 MPLS 基本 转发 就 可 以 。 这 个 过 程 不 需要 定义 新 协议 ， 也 不 
用 升级 路 由 器 软件 ， 最 快 几 周 就 可 能 开发 一 个 TE 业务 。 









SDN 网 络 儿 持 POF 的 SDN 网 络 


支持 MPLS ea 





支持 MPLS 












到 制 面 可 编程 
理 面 可 编程 


支持 TE 特性 示例 


耗 时 数 年 用 时 几 周 


J@ 定义 IGP TE/RSVP 标准 Q 实现 控制 器 的 TE 应 用 程序 , 并 | O 人 TE 应 用 程序 和 转发 

@) 各 厂家 实现 标准 ， 发 布 版 本 安装 到 控制 器 定义 ， 并 安装 到 控制 器 

@ 升级 设备 和 网 管 @ 设备 无 需 升级 © 设备 和 MPLS 转发 也 无 需 支持 
1-8 网 络 开发 能 力 对 比 


华为 公司 正在 研究 的 新 技术 协议 无 关 转 发 (Protocol Oblivious Forwarding，POF )， 
其 核心 在 于 增强 OpenFlow 的 转发 面 。OpenFlow 需要 定义 基本 的 关键 字 ， 比 如 MAC 
Address、IP Address 等 。 当 遇 到 某 些 新 的 转发 业务 ， 比 如 增加 新 的 VXLAN 业务 时 ， 
OpenFlow 并 没有 定义 VXLAN 的 报 文 头 关键 字 ， 于 是 支持 OpenFlow 的 转发 器 就 无 法 处 
理 这 样 新 的 转发 业务 ， 而 是 需要 增加 新 定义 VXLAN 关键 字 ， 并 升级 转发 软件 ， 才 能 工 
作 。 而 在 支持 POF 的 设备 中 ， 客 户 可 以 在 线 给 支持 POF 的 转发 器 增加 新 的 报 文 封装 处 
理 能 力 ， 只 要 在 线 为 该 转发 器 加 载 一 个 报 文 封装 和 处 理 的 描述 符 数据 表 ，POF 设备 就 可 
以 直接 支持 这 种 新 的 报 文 封装 的 处 理 ， 而 原来 的 OpenFlow 协议 是 做 不 到 的 。 这 里 的 例 
子 是 说 ， 如 果 支 持 MPLS TE， 无 论 是 传统 网 络 还 是 SDN 网 络 架 构 ， 都 需要 转发 设备 预 
先 支 持 MPLS 转发 ， 但 如 果 是 POF 设备 ， 可 以 在 转发 器 不 支持 MPLS 转发 的 情况 下 ， 
直接 通过 控制 器 软件 升级 , 使 得 转发 器 支持 MPLS 转发 , 所 以 可 编程 能 力 进一步 增强 了 。 
不 过 ，POF 技术 不 是 本 书 要 讨论 的 重点 ， 所 以 这 里 不 详细 介绍 其 实现 过 程 。 





管理 面 可 编程 
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1.4 SDN 是 对 电信 网 络 的 一 次 重 构 


通过 上 面 分 析 可 见 ，SDN 是 通过 在 网 络 中 增加 一 个 集中 的 SDN 控制 器 ， 使 得 网 络 
得 以 简化 , 并 且 能 够 支持 业务 快速 创新 。 其 本 质 技术 是 通过 SDN 控制 器 的 网 络 软件 化 过 
程 来 提升 网 络 可 编程 能 力 。 通 信 系 统 仍 包含 管理 平面 、 控 制 平面 、 数 据 平面 ，SDN 网 络 
架构 只 是 把 系统 中 三 个 平面 的 功能 进行 了 重新 分 配 。 传 统 网 络 控制 平面 是 分 布 式 的 ， 分 
布 在 每 个 转发 设备 上 ， 而 SDN 网 络 架 构 则 是 把 分 布 式 控制 平面 集中 到 一 个 SDN 控制 器 
内 ， 实 现 集中 控制 ， 而 管理 平面 和 数据 平面 并 没有 太 多 变化 , 所 以 说 SDN 网 络 是 对 传统 
网 络 的 一 次 重 构 。 

传统 网 络 发 展 了 30 多 年 ， 各 种 需求 通过 分 布 式 控制 平面 也 都 实现 了 ， 很 少 遇 见 某 
个 需求 是 传统 的 分 布 式 控制 平面 无 法 满足 的 , 就 是 说 SDN 不 是 解决 了 以 前 解决 不 了 的 问 
题 ， 而 是 使 得 各 种 需求 、 问 题解 决 得 更 快 、 更 好 、 更 加 简单 而 已 。 而 所 有 这 一 切 都 是 因 
为 SDN 网 络 通过 集中 的 控制 器 大 大 提升 了 网 络 的 可 编程 能 力 带 来 的 。 传 统 网 络 的 可 编程 
能 力 很 差 . 需要 解决 标准 定义 、 互 通 、 升 级 转发 器 等 元 长 工作 , 而 SDN 时 代 的 网 络 大 部 
分 业务 需求 仅仅 通过 修改 和 增加 一 些 控制 器 上 的 软件 就 可 以 实现 ， 能 快速 对 网 络 行为 进 
行 调整 并 在 网 络 中 快速 部 署 新 业务 。SDN 是 把 网 络 控制 功能 软件 化 ， 便 于 更 多 的 APP 
《应 用 程序 ) 能 够 快速 部 署 在 网 络 上 ， 并 且 能 够 对 网 络 分 工 进行 调整 ， 把 转发 、 控 制 、 
APP 应 用 分 层 解 耦 ， 使 得 各 层 能 够 独立 发 展 ， 改 变 以 前 各 厂家 垂直 整合 模式 。SDN 网 络 
架构 能 够 促进 产业 水 平整 合 ， 从 而 促进 整体 产业 的 竞争 发 展 。 


1.4.1 SDN 将 改变 现存 的 WAN 网 络 、 传 送 网 络 、 数 据 中 心 网 络 架构 


传统 的 传送 网 络 通 常 不 具备 分 布 式 控制 能 力 ， 而 是 通过 传送 网 管 对 网 络 进行 路 径 规 
划 然 后 配置 到 设备 。 当 考虑 可 靠 性 时 ， 网 管 可 以 规划 主 、 备 两 条 路 径 ， 当 主 用 路 径 失 效 
时 ， 传 送 设备 会 自动 切换 到 备份 路 径 ， 但 是 当 备 份 路 径 也 发 生 故 障 时 ， 通 常 需 要 人 工 介 
入 处 理 ， 系 统 并 没有 卫 网 络 的 极 高 可 靠 性 、 自 组 织 自 恢复 能 力 ， 不 能 实现 有 路 就 能 通 的 
能 力 ， 同 时 由 于 其 网 络 动态 性 相对 IP 网 络 差 一 些 ， 所 以 网 络 链 路 利用 率 受 到 影响 。 尽 管 后 
来 也 出 现 了 自动 交换 光 网 络 (Automatically Switched Optical Network，ASON) 这 样 的 类 
似 IP 的 分 布 式 控制 技术 ， 并 在 网 络 中 进行 了 部 署 ， 但 是 却 又 落 入 IP 的 分 布 式 控制 面 的 
复杂 性 里 面 。 现在 增加 了 SDN 控制 器 的 SDN 网 络 架 构 , 不 仅 应 用 于 IP 网 络 也 会 应 用 到 
传送 网 络 中 。SDN 网 络 架 构 使 得 传送 网 络 也 具备 根据 网 络 状态 实时 反馈 控制 的 能 力 ， 并 
解决 分 布 式 控制 的 ASON 网 络 带 来 的 业务 创新 速度 慢 的 问题 , 这 样 就 能 够 提升 传送 网 络 
的 可 靠 性 和 灵活 性 。 

SDN 改变 最 快 的 不 是 运营 商 的 WAN 网 络 和 传送 网 络 ， 而 是 数据 中 心 网 络 。 互 联网 
的 快速 发 展 ， 产 生 了 数据 中 心 多 租户 业务 。 这 种 业务 向 租户 提供 数据 中 心 资源 快速 租用 
服务 ， 能 够 秒 级 完成 计算 和 存储 资源 调度 。 由 于 租户 之 间 需 要 虚拟 网 络 隔 离 ， 所 以 要 求 
虚拟 网 络 的 创建 也 必须 能 够 在 秒 级 完成 ， 这 对 于 传统 网 络 来 说 是 一 个 巨大 挑战 。 传 统 网 
络 面临 的 另外 一 个 挑战 是 缺乏 远见 的 协议 设计 ， 传 统 网 络 的 VLAN 设计 只 能 支持 4000 
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个 虚拟 网 络 , 无 法 满足 海量 租户 需求 。 所 以 利用 SDN 技术 来 直接 基于 服务 器 构建 虚拟 网 
络 的 解决 方案 就 大 行 其 道 。Niciria 的 数据 中 心 控 制 器 被 VMWare 以 12.6 亿美 元 收购 的 
案例 ， 就 说 明了 SDN 的 价值 。 后 来 的 开源 控制 器 ODL 也 主要 是 面向 数据 中 的 SDN 控 
制 器 。 


1.4.2 ”SDN 将 改变 通信 网 络 的 产业 链 


SDN 网 络 架构 的 出 现 , 可 能 会 把 原来 由 一 个 三 商 独立 提供 的 网 络 设备 的 垂直 集成 模 
式 转变 为 由 多 个 厂商 提供 部 件 、 由 集成 厂商 提供 集成 的 水 平 集成 模式 。 这 就 有 点 类 似 当 
初 的 个 人 计算 机 〈Personal Computer，PC) 工业 的 情况 。 苹 果 公司 当初 在 做 PC 的 时 候 ， 
基本 上 是 一 家 垂直 集成 模式 供应 商 。 后 来 IBM 公司 提出 了 兼容 机 架构 ， 由 微软 、INTEL 
和 众多 兼容 机 硬件 生产 厂家 形成 了 兼容 机 模式 ， 则 是 各 自 有 不 同 侧重 的 水 平分 工 模式 ， 
比如 Intel 公司 提供 主要 的 CPU 芯片 ， 微 软 公司 提供 操作 系统 ， 其 他 厂家 提供 浏览 器 软 
件 、 图 像 处理 软 件 、 办 公 软 件 、 数 据 库 软件 、 游 戏 软件 ， 联 想 公 司 提供 集成 等 。 这 种 水 
平分 工 模式 促进 了 每 个 层次 的 快速 改进 ， 也 是 最 终 使 计算 机 能 够 成 为 千家 万 户 的 一 个 普 
通电 器 的 重要 原因 。 因 为 这 种 分 工 导 致 了 充分 竞争 ， 使 得 销售 价格 能 够 被 普通 工薪 阶层 
承受 得 起 。 在 某 种 意义 上 ， 这 种 革命 通常 导致 了 市 场 整体 空间 的 变 小 ， 而 另 一 方面 ， 由 
于 使 用 的 客户 变 多 ,又 使 得 整体 的 市 场 空 间 变 大 。 如 果 在 一 个 给 定 的 客户 使 用 量 基 础 上 ， 
这 种 革命 其 实 是 导致 了 市 场 总 规模 的 缩小 , 包括 SDN 网 络 架构 ,其 带 来 的 影响 可 能 是 产 
生 白 牌 化 设备 ， 那 么 就 可 能 意味 着 市 场 空间 的 变化 ， 而 传统 的 网 络 设备 供应 商 也 必 将 受 
到 巨大 影响 。 所 以 在 SDN 网 络 架 构 的 这 一 波浪 潮 兴 起 之 时 , 运营 商 作为 网 络 设备 消费 者 
是 非常 欢迎 的 ， 而 传统 网 络 设备 供应 商 则 面临 巨大 挑战 ， 包 括 业 界 主流 设备 供应 商 华为 
公司 、CISCO 公司 等 。 但 同时 我 们 发 现 大 量 的 初创 公司 开始 积极 进入 这 个 领域 ， 试 图 在 
这 次 SDN 网 络 架构 革命 的 浪潮 中 谋 得 自己 的 一 席 之 地 。 而 传统 网 络 设备 供应 商 则 各 自 都 
有 各 自 的 应 对 策略 , 华为 公司 积极 拥抱 这 次 革命 , 积极 投入 到 了 SDN 网 络 架 构 的 研究 和 
开发 中 ， 在 市 场 上 取得 了 SDN 部署 应 用 的 领先 地 位 ; CISCO 则 提出 了 多 种 SDN 解决 方 
案 ,， 包括 ONEPK、WAE、ACI、XNC 等 ， 这 么 多 方案 足以 说 明 其 内 部 对 SDN 的 复杂 心 
态 ， HP 和 IBM 发 起 创建 了 ODL (Open Day Light) 开源 控制 器 项 目 ， 也 积极 加 入 到 这 
场 变 革 中 。 

显然 ， 这 次 SDN 网 络 架 构 对 传统 网 络 进行 的 重 构 ， 势 必 导 致 产业 链 的 一 次 震荡 ， 
就 是 说 网 络 架构 的 重 构 不 仅仅 影响 着 网 络 本 身 ， 还 会 导致 一 次 产业 链 的 重 构 ， 形 成 一 个 
能 够 支撑 SDN 网 络 架 构 的 产业 链 结构 。 这 次 产业 链 重 构 必 然 形 成 新 的 产业 结构 , 各 家 传 
统 供应 商 和 初创 公司 都 在 寻找 自己 在 新 的 产业 结构 中 的 位 置 ， 试 图 在 某 个 领域 占领 一 席 
之 地 。 比 如 部 分 芯片 厂商 积极 开发 标准 OpenFlow 芯片 ， 试 图 占领 未 来 白 牌 设备 的 核心 
芯片 市 场 ， 控 制 器 和 控制 器 平台 也 是 很 多 初创 公司 和 传统 厂家 的 必 争 之 地 ， 比 如 华为 公 
司 在 积极 推出 自己 的 网 络 控制 器 ， 并 在 各 主流 运营 商 市 场 进行 测试 和 开局 。 同 时 ，SDN 
的 网 络 架 构 重 构 也 会 对 原来 的 OSS 厂商 带 来 冲击 ， 所 以 IBM、HP 这 样 的 公司 也 在 积极 
投入 到 SDN 网 络 技 术 研 究 中 。 

未 来 在 SDN 网 络 架 构 下 ， 网 络 系统 从 传统 的 垂直 集成 走向 水 平 集成 ， 新 的 产业 链 
分 工 可 能 包含 如 图 1-9 所 示 的 几 个 层次 。 
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应 用 层 


转发 设备 操作 系统 层 ee 
转发 设备 导 


芯片 层 
图 1-9 新 的 产业 链 分 工 层次 


在 图 1-9 中 ， 芯 片 层 主要 提供 各 种 高 性 能 转发 所 需 的 芯片 ， 会 有 很 多 芯片 厂商 竞争 
这 个 市 场 , 未 来 如 果 通 过 OpenFlow 作为 转 控 分 离 协 议 , 那么 新 的 支持 OpenFlow 协议 的 
芯片 就 是 各 个 芯片 厂商 竞争 的 关键 。 转 发 设备 层 ， 是 使 用 这 些 芯 片 集成 构建 转发 设备 的 
过 程 。 转 发 设备 操作 系统 层 ， 是 专门 用 于 驱动 转发 设备 ， 是 在 转发 器 上 运行 的 一 个 操作 
系统 ， 比 如 开源 的 有 Linux 上 开发 的 Cumulus。 各 个 传统 厂家 都 有 这 种 设备 操作 系统 ， 
比如 华为 的 VRP、 思 科 的 IOS、Juniper 的 JUNOS 等 。 芯 片 、 转 发 设备 以 及 转发 设备 上 
的 操作 系统 一 起 组 成 了 转发 器 。 再 上 面 是 控制 器 层 , 主要 完成 网 络 上 多 个 转发 器 的 控制 ， 
实现 网 络 控制 业务 , 比如 VPN 业务 、 基 本 了 他 转发 业务 等 ,最 上 面 是 应 用 层 , 比如 Openstack 
等 ， 主 要 实现 面向 用 户 的 各 种 策略 应 用 的 处 理 。 

在 这 些 分 层 中 ， 控 制 器 和 应 用 层 其 实 可 以 继续 分 层 ， 比 如 控制 器 分 为 控制 器 平台 层 
和 控制 器 控制 类 应 用 层 ; 应 用 层 也 可 以 分 为 应 用 平台 层 和 应 用 层 等 。 总 之 ， 未 来 可 以 形 
成 每 层 都 有 很 多 厂家 提供 技术 和 产品 ， 最 终 由 集成 厂商 完成 整体 交付 。 不 过 ， 集 成 商 也 
可 能 仅仅 集成 一 个 部 分 ， 比 如 转发 设备 集成 商 可 以 仅仅 集成 转发 设备 OS 和 芯片 ， 由 它 
们 构成 一 个 完整 的 转发 设备 。 这 大 体 上 就 是 未 来 SDN 时 代 的 产业 链 理想 分 工 , 当然 是 否 
能 够 走 到 这 一 步 ， 何 时 走 到 这 一 步 ， 主 要 看 产业 链 的 博弈 了 。 

总 之 ,在 这 次 SDN 网 络 架 构 重 构 中 ， 必 然 伴 随 着 产业 链 的 重 构 ， 目 前 已 经 有 大 量 厂 
商 加 入 到 SDN 相关 的 产业 研究 和 商用 产品 开发 的 行列 ， 包 括 IT 巨头 IBM、HP 等 公司 ， 
也 包括 芯片 厂商 Broadcom， 还 包括 传统 IP 设备 厂商 华为 、 思 科 ， 更 有 众多 的 初创 公司 
积极 地 投入 到 SDN 的 研发 和 创新 工作 中 。 最 后 到 底 谁 能 够 成 为 新 的 产业 结构 中 的 一 员 生 
存 下 来 ， 还 没有 定数 ， 至 少 目前 是 这 样 。 

也 许 有 人 会 问 ， 到 底 谁 家 的 控制 器 和 控制 器 平台 能 够 成 为 未 来 主流 的 控制 器 平台 ? 
作为 一 个 传统 设备 供应 商 到 底 该 跟 哪个 方向 ? 这 个 问题 其 实 很 难 回答 。 首 先 ， 如 果 一 个 
厂商 仅仅 希望 跟随 别人 的 一 个 方向 ， 这 种 战略 本 身 己 经 不 可 能 成 为 未 来 的 一 个 领导 者 的 
战略 选择 。 方向 是 很 多 人 努力 的 结果 , 他 们 相信 自己 的 控制 器 能 够 成 为 未 来 主流 控制 器 ， 
并 且 进 行 各 种 努力 去 把 自己 的 这 个 希望 变 成 现实 。 我 们 知道 ， 很 多 努力 者 最 终 没 有 实现 
愿望 ， 甚 至 最 后 公司 也 不 存在 了 ， 但 是 产业 的 领导 者 正 是 这 些 公司 中 的 某 个 公司 。 我 的 
意思 是 说 ， 如 果 期 望 自己 的 控制 器 成 为 未 来 主流 ， 那 么 就 应 该 努力 去 推动 、 去 开发 、 去 
研究 ， 使 得 它 成 为 主流 ， 而 不 是 只 是 去 看 看 哪 家 可 以 成 为 主流 ， 进行 简单 的 跟随 。 当 然 ， 
有 些 公司 是 可 以 采用 简单 的 跟随 策略 的 ， 但 是 作为 一 个 有 抱负 的 公司 ， 应 该 自己 努力 成 
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为 未 来 的 领导 者 ， 而 不 努力 的 公司 或 者 根本 就 没有 想 成 为 领导 者 的 公司 是 不 能 控制 方向 
的 ， 也 不 能 成 为 方向 。 


【本 章 小 结 】 


本 章 主要 介绍 了 什么 是 SDN。SDN 是 软件 定义 网 络 ， 最 关键 的 改变 是 在 网 络 中 增 
加 了 SDN 网 络 控制 器 , 用 SDN 控制 器 对 网 络 进行 集中 控制 。SDN 网 络 具 有 三 个 基本 特 
征 : 转 控 分 离 、 集 中 控制 、 开 放 接 口 。SDN 网 络 的 价值 包括 简化 网 络 、 灵 活 流 量 调整 、 
支持 新 业务 快速 创新 。 

SDN 是 对 网 络 架构 的 一 次 重 构 ， 把 原来 分 布 式 控制 面 网 络 架构 改变 为 集中 控制 的 
SDN 网 络 架构 。SDN 是 对 传统 网 络 的 一 次 革命 ,这 次 网 络 架构 的 调整 ,将 会 导致 一 次 产 
业 链 的 调整 ， 最 终 形成 能 够 支撑 SDN 网 络 架 构 的 新 的 产业 链 体 系 。 
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SDN 是 对 传统 网 络 架构 的 一 次 重 构 ， 从 原来 的 分 布 式 控制 的 网 络 架 构 重 构 为 集中 
控制 的 网 络 架构 。SDN 最 重要 的 变化 是 在 网 络 中 增加 了 SDN 控制 器 ， 由 SDN 控制 器 
对 网 络 实行 集中 控制 。SDN 控制 器 是 一 个 集中 的 网 络 控制 系统 ， 是 一 个 软件 。 正 是 因 
为 SDN 控制 器 的 软件 属性 ， 才 使 得 SDN 能 够 把 网 络 软件 化 ， 使 得 网 络 能 够 像 软 件 一 
样 易于 修改 ， 提 高 网 络 的 敏捷 性 。 本 章 将 介绍 SDN 网 络 架 构 的 分 层 模型 以 及 SDN 网 
络 的 基本 工作 原理 。 


2.1 SDN 网 络 架构 的 三 层 模 型 


在 SDN 网 络 架构 下 ， 整 个 网 络 系统 如 图 2-1 所 示 。 





图 2-1 SDN 网 络 的 分 层 结构 


SDN 网 络 架构 分 为 协同 应 用 层 、 控制 层 、 转发 层 三 层 。 网 络 架 构 本 身 包括 管理 平面 、 
控制 平面 和 转发 平面 ， 与 这 三 层 对 应 。 


2.1.1 ”协同 应 用 层 


这 一 层 主要 是 完成 用 户 意图 的 各 种 上 层 应 用 程序 ， 此 类 应 用 程序 (APP) 称 为 协同 
层 应 用 程序 ， 典 型 的 协同 层 应 用 包括 OSS、Openstack 等 。OSS 可 以 负责 整 网 的 业务 协 
同 ， 而 Openstack 则 在 数据 中 心 负责 网 络 、 计 算 、 存 储 的 协同 。 还 有 一 些 其 他 的 协同 层 
应 用 。 比 如 ， 用 户 可 能 希望 在 协同 层 部 署 一 个 安全 APP， 通 过 分 析 网 络 的 攻击 事件 ， 调 
用 控制 层 提供 的 服务 接口 , 阻 断 攻 击 流量 或 者 引流 那些 特定 的 攻击 流量 到 流量 清洗 中 心 。 
而 这 些 阻 断 攻击 流量 的 网 络 服务 接口 不 过 是 一 种 控制 器 提供 的 网 络 服务 调用 接口 。 协 同 
应 用 层 的 安全 APP 通常 不 需要 关心 具体 在 哪些 设备 阻 断 , 只 是 调用 了 控制 器 的 一 个 服务 
接口 阻 断 某 一 类 流量 ， 如 Block (SourceIP，DestIP); 然后 控制 器 就 会 给 网 络 的 各 个 边 
界 转发 器 下 发 流 表 ,， 阻 断 这 些 符合 特征 的 数据 报 文 。 协 同 层 APP 也 可 能 是 一 些 提供 网 络 
服务 在 线 销 售 的 服务 , 比如 运营 商 的 企业 客户 可 以 通过 APP 客户 端 直接 快速 订购 一 些 特 
定 网 络 带 宽 的 即时 开通 服务 , 某 些 OTT 厂商 可 能 希望 即时 开通 几 个 数据 中 心 之 间 的 特定 
带宽 的 通道 , 需要 开通 这 样 的 服务 时 间 可 能 是 分 钟 级 别 或 者 秒 级 别 的， 那么 这 些 APP 可 
以 集成 网 络 业 务 的 定制 、 认 证 、 计 费 等 功能 ， 通 过 调用 控制 层 提供 的 网 络 专 线 服务 ， 支 
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撑 此 类 业务 快速 开通 。 

传统 的 他 网 络 具 有 转发 平面 、 控 制 平面 和 管理 平面 ，SDN 网 络 架构 也 同样 包含 这 
三 个 平面 ， 只 是 传统 的 IP 网 络 是 分 布 式 控制 的 ， 而 SDN 网 络 架 构 是 集中 控制 的 。 正 是 
从 这 个 意义 上 说 ，SDN 网 络 是 对 网 络 架构 的 一 次 重 构 ， 而 重 构 的 目的 正 是 SDN 网 络 架 
构 使 网 络 软件 化 ， 能 够 简化 网 络 ， 加 速 网 络 业务 的 创新 速度 。 


2.1.2 ”控制 层 


控制 层 是 系统 的 控制 中 心 ， 负 责 网 络 的 内 部 交换 路 径 和 边界 业务 路 由 的 生成 ， 并 负 
责 处 理 网 络 状 态 变化 事件 。 当 网 络 发 生 状 态 变化 ， 比 如 链 路 故障 、 节 点 故障 、 网 络 拥塞 
等 时 ， 控 制 层 会 根据 这 些 网 络 状 态 变 化 调整 网 络 交换 路 径 和 业务 路 由 ， 使 得 网 络 始终 能 
够 处 于 一 个 正常 服务 的 状态 ， 避 免 用 户 数据 在 穿 过 网 络 过 程 中 受到 损失 《〈 如 丢 包 、 时 延 
增 大 )。 

控制 层 的 实现 实体 就 是 SDN 控制 器 ， 也 是 SDN 网 络 架 构 下 最 核心 的 部 件 。 控 制 层 
是 SDN 网 络 系 统 中 的 大 脑 , 是 决策 部 件 , 其 核心 功能 是 实现 网 络 内 部 交换 路 径 计 算 和 边 
界 业务 路 由 计算 。 控 制 层 的 接口 主要 是 南 向 通过 控制 接口 和 转发 展 交 互 ， 北 向 提供 网 络 
业务 接口 和 APP 层 交 互 。 

这 里 所 谓 的 网 络 业务 接口 ， 是 指 对 上 层 APP 提供 的 网 络 业务 服务 ， 包 括 L2VPN、 
数据 中 心虚 拟 网 络 、L3VPN、 基 本 IP 转发 业务 等 。APP 层 把 网 络 看 成 黑 盒 ， 只 需要 网 
络 黑 盒 服 务 ， 而 不 关心 内 部 实现 细节 。 至 于 控制 层 如 何 实现 这 些 网 络 业 务 ，APP 层 可 以 
不 用 关心 ，APP 层 只 需要 调用 这 些 网 络 服务 来 完成 自己 的 业务 诉求 。 这 和 传统 的 分 布 式 
控制 网 络 有 些 不 同 ， 传 统 的 分 布 式 控制 网 络 的 控制 层 是 分 布 式 的 。 当 需要 实现 某 个 网 络 
业务 时 ，APP 比如 OSS 系统 ， 需 要 了 解 下 面 的 控制 层 的 技术 实现 细节 ， 比 如 L3VPN 业 
务 ，APP (OSS) 需要 部 署 MBGP 来 分 配 VPN 标签 传递 VPN 路 由 ， 也 需要 部 署 MPLS 
作为 隧道 服务 协议 ， 并 且 需 要 针对 不 同 厂家 设备 的 这 些 实现 细节 进行 适 配 ， 是 个 繁琐 的 
过 程 。 而 SDN 网 络 架构 下 ，SDN 控制 器 本 身 直接 提供 网 络 业 务 服务 接口 ，APP 就 不 需 
要 关心 内 部 的 MPLS、MBGP 等 技术 细节 。 事 实 上 ，SDN 控制 器 内 部 的 实现 技术 已 经 把 
这 些 协议 简化 掉 了 ， 屏 蔽 了 这 些 技术 细节 ， 仅 仅 提 供 网 络 服务 接口 给 APP 层 。 


2.1.3 ”转发 层 


转发 展 主要 由 转发 器 和 连接 转发 器 的 线路 构成 基础 转发 网 络 。 这 一 层 负责 执行 用 户 
数据 的 转发 ， 转 发 过 程 中 所 需要 的 转发 表 项 是 由 控制 层 生 成 的 。 转 发 层 是 系统 的 执行 单 
元 ， 本 身 通 常 不 做 决策 。 其 核心 部 件 是 系统 的 转发 引擎 ， 由 转发 引擎 负责 根据 控制 层 下 
发 的 转发 数据 进行 报 文 转发 。 该 层 和 控制 层 之 间 通 过 控制 接口 交互 ， 转 发 层 一 方面 上 报 
网 络 资源 信息 和 状态 ， 男 一 方面 接收 控制 层 下 发 的 转发 信息 。 


2.2 SDN 网络 架构 下 的 三 个 接口 


SDN 网 络 架 构 和 以 往 网 络 架构 的 不 同 之 处 ， 在 于 在 网 络 中 增加 了 SDN 控制 器 ， 对 
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网 络 进行 集中 控制 ， 并 实现 转 控 分 离 、 集 中 控制 和 开放 接口 。 控 制 器 位 于 控制 层 ， 其 与 
上 面 的 APP 层 、 下 面 的 转发 展 以 及 同 层 的 其 他 控制 器 或 其 他 网 络 之 间 需 要 有 接口 ， 这 三 
个 接口 (如 图 2-2 所 示 ) 分 别 是 : 

Q@ 北向 接口 (North Bound Interface，NBI); 

@) 南 向 接口 〈South Bound Interface，SBI); 

@ 东西 向 接口 。 


APP 
1. NBI( 北 向 接口 ) 





图 2-2 SDN 网络 中 的 三 个 接口 


2.2.1 NBI (北向 接口 ) 


这 个 接口 是 一 个 管理 接口 ， 与 传统 设备 提供 的 管理 接口 形式 和 类 型 都 是 一 样 的 。 只 
是 提供 的 接口 内 容 和 传统 设备 的 接口 内 容 有 所 不 同 。 传 统 设 备 提 供 单个 设备 的 业务 管理 
接口 或 者 称 为 配置 接口 ， 而 现在 控制 器 提供 的 是 网 络 业务 管理 接口 ， 比 如 ， 我 们 可 以 直 
接 在 网 络 中 部 署 一 个 虚拟 网 络 业务 或 者 L2VPN 的 PW 业务 ， 而 不 需要 关心 网 络 内 部 到 
底 如 何 实现 这 个 业务 ， 这 些 业 务 的 实现 都 是 由 控制 器 内 部 的 程序 完成 的 。 实 现 这 种 NBI 
《北向 接口 ) 的 协议 通常 包括 RESTFUL 接口 、Netconf 接口 以 及 CLI 接口 等 传统 管理 接 
口 协议 。 
2.2.2 SBI ( 南 向 接口 ) 


这 个 接口 主要 用 于 控制 器 和 转发 器 之 间 的 数据 交互 ， 包 括 从 设备 收集 拓扑 信息 、 标 
签 资源 、 统 计 信 息 、 告 警 信息 等 ， 也 包括 控制 器 下 发 的 控制 信息 ， 比 如 各 种 流 表 。 目 前 
主要 的 南 向 接口 控制 协议 包括 OpenFlow 协议 、Netconf 协议 、PCEP、BGP 等 。 控 制 嚣 
用 这 些 接口 协议 作为 转 控 分 离 协 议 。 在 传统 网 络 中 ， 由 于 控制 面 是 分 布 式 的 ， 通 常 不 需 
要 这 些 转 控 分 离 协 议 。 

2.2.3 ”东西 向 接口 

SDN 网 络 在 和 其 他 网 络 进 行 互 通 ， 尤其 是 和 传统 网 络 进行 互通 时 ， 需 要 一 个 东西 向 

接口 。 比 如 和 传统 网 络 互通 时 ，SDN 控制 器 必须 和 传统 网 络 通过 传统 的 路 由 协议 对 接 ， 


需要 控制 器 支持 传统 的 BGP 〈 跨 域 路 由 协议 )。 也 就 是 说 ， 控 制 器 需要 实现 类 似 传统 的 
各 种 跨 域 协议 ， 以 便 能 够 和 传统 网 络 进行 互通 。 
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为 什么 要 和 传统 网 络 进行 互通 昵 ?这 里 主要 的 原因 是 现在 的 运营 商 网 络 ， 已 经 大 规 
模 部 署 了 传统 的 分 布 式 网 络 , 我 们 不 可 能 一 夜 之 间 把 所 有 的 网 络 都 升级 到 SDN 网 络 , 所 
以 SDN 网 络 在 现 网 部 署 是 逐步 验证 、 逐 步 部 署 的 过 程 。 比 如 ， 在 某 个 局 部 部 署 了 SDN,， 
如 果 它 是 个 孤立 的 网 络 , 那 这 个 孤立 的 SDN 网 络 就 没有 任何 用 处 , 所 以 一 定 需要 接 入 现 
存 的 网 络 ， 于 是 与 这 个 传统 网 络 互通 就 是 必要 的 。SDN 控制 器 必须 能 够 支持 各 种 传统 的 
跨 域 路 由 协议 ， 以 便 解决 和 传统 网 络 的 互通 问题 。 

这 里 有 两 个 问题 ， 第 一 ， 为 什么 要 支持 跨 域 路 由 协议 ”第 二 ， 是 否 必 须 支 持 这 些 
协议 ? 

关于 第 一 个 问题 ， 为 什么 要 支持 跨 域 ? 因为 控制 器 在 部 署 时 ， 推 荐 采用 按 原 来 网 络 
的 自治 系统 方式 来 部 署 ， 就 是 说 通常 按照 一 个 域 来 部 署 一 个 控制 器 。 这 样 做 的 目的 是 因 
为 网 络 规模 巨大 ， 不 可 能 用 一 台独 立 的 控制 器 把 一 个 运营 商 的 全 部 网 络 控制 起 来 。 另 外 
一 方面 ， 传 统 网 络 按照 区 域 划分 进行 管理 已 经 是 一 个 成 熟 的 方法 ， 也 积累 了 丰富 的 管理 
经 验 ， 因 此 ， 直 接 按照 传统 的 自治 系统 来 划分 控制 器 控制 域 也 就 更 加 容易 利用 成 熟 丰 富 
的 经 验 来 进行 网 络 的 管理 和 控制 。 至 于 控制 器 是 否 可 以 在 一 个 自治 系统 内 部 仅仅 选取 一 
些 设备 进行 控制 ， 答 案 是 肯定 的 ， 而 且 实 际 应 用 中 已 经 有 很 多 是 这 样 的 。 比 如 华为 的 
PCE+ 方 案 就 是 通过 控制 器 仅仅 和 网 络 边界 上 的 业务 接 入 点 建立 协议 连接 , 并 控制 这 些 边 
界 点 ,不 需要 控制 整 网 每 台 设 备 就 能 完成 网 络 内 TE 路 径 的 控制 。 再 比如 华为 的 BGP RR+ 
方案 , 也 是 通过 控制 器 仅仅 控制 一 些 ASBR, 就 能 达到 控制 流量 出 口 和 流量 入 口 的 目的 。 
但 是 在 一 些 解决 方案 中 ， 比 如 当 通 过 OpenFlow 协议 实现 完全 转 控 分 离 的 网 络 控制 时 ， 
则 不 推荐 这 种 在 一 个 自治 系统 内 部 仅仅 控制 一 部 分 设备 的 做 法 。 如 果 这 样 做 ， 那 么 网 络 
的 组 网 结构 就 如 图 2-3 所 示 。 





观察 这 个 图 可 以 发 现 ， 我 们 不 得 不 在 控制 器 运行 各 种 域内 路 由 协议 ， 以 便 和 自治 系 
统 内 部 其 他 设备 运行 的 传统 的 域内 路 由 协议 互通 。 这 样 东 西向 接口 变 得 更 加 复杂 ， 域 内 
协议 通常 比 域 间 要 多 且 复 杂 ， 比 如 需要 运行 各 种 IGP、 各 种 组 播 协议 、 各 种 IPv6 协议 、 
各 种 MPLS 协议 等 。 这 样 就 相当 于 没有 简化 网 络 内 部 的 协议 ， 因 为 控制 器 上 又 一 次 实现 
了 这 些 路 由 协议 ， 并 且 从 APP 角度 看 ， 需 要 同时 和 传统 网 管 以 及 控制 器 进行 适 配 ， 这 样 
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大 大 增加 了 网 络 的 管理 和 控制 难度 , 却 没有 什么 明显 的 收益 。 所 以 这 并 不 是 理想 的 模式 ， 
不 推荐 使 用 此 类 组 网 方案 。 

第 二 个 问题 ， 是 否 必须 在 控制 器 上 运行 东西 向 协议 ? 东西 向 协议 是 必须 有 的 ， 如 果 
不 运行 在 控制 器 上 ， 则 需要 保留 在 转发 器 上 面 去 运行 。 也 就 是 说 ， 域 间 的 协议 可 以 运行 
在 转发 器 上 ， 结 果 是 控制 器 仅仅 对 域内 的 网 络 交换 路 径 进行 控制 ， 而 不 对 网 络 边界 的 接 
入 业务 进行 控制 。 因 为 这 些 业 务 的 转发 表 的 生成 并 不 是 在 控制 器 ， 而 是 在 转发 器 本 身 ， 
由 运行 在 其 上 的 边界 业务 路 由 协议 进行 控制 和 生成 。 这 个 方案 导致 我 们 没有 把 接 入 业务 
控制 集中 到 控制 器 实现 , 那么 这 个 部 分 也 就 不 具有 SDN 网 络 的 业务 快速 创新 价值 了 , 因 
为 集中 的 越 少 ， 可 以 灵活 控制 的 就 越 少 。 如 果 把 这 个 边界 接 入 协议 都 集中 在 控制 器 ， 那 
么 简单 地 通过 修改 或 者 升级 这 些 控 制 器 上 的 程序 就 可 以 提供 新 业务 。 典 型 的 例子 是 , BGP 
的 边界 选 路 策略 要 求 多 种 多 样 ， 不 断 变化 ， 如 果 运 用 集中 控制 器 ， 就 可 以 非常 方便 地 实 
现 这 些 多 变 的 各 种 定制 需求 ; 如 果 部 署 在 转发 器 ， 则 比较 复杂 ， 需 要 升级 转发 器 。 但 是 ， 
网 络 边 界 上 一 个 SDN 控制 器 控制 的 网 络 边界 ) 运行 传统 的 路 由 协议 ， 而 不 把 它们 集中 
到 控制 器 上 的 场景 , 在 网 络 实际 部 署 SDN 中 是 存在 需求 的 。 这 个 场景 能 够 解决 很 多 现 有 
网 络 向 SDN 网 络 迁 移 的 问题 , 例如 不 必 一 次 把 一 个 设备 的 所 有 控制 都 集中 到 控制 器 , 而 
是 可 以 先 把 域内 的 路 径 计 算 集中 , 然后 当 认 为 SDN 成 熟 时 , 再 考虑 把 边界 接 入 业务 控制 
也 集中 到 控制 器 。 一 些 三 家 的 控制 器 已 经 能 够 支持 这 点 ， 比 如 华为 控制 器 的 可 上 可 下 业 
务 部 署 技术 ， 能 够 无 颖 地 支持 这 种 边界 业务 控制 灵活 部 署 在 控制 器 或 者 转发 器 上 。 

关于 东西 向 接口 ， 还 有 一 个 场景 需要 这 个 接口 ， 就 是 当 两 个 网 络 都 是 SDN 时 ， 它 
们 之 间 进 行 互通 ? 可 以 给 出 两 个 解决 方案 ,第 一 个 解决 方案 是 Peer 模型 (如 图 2-4 所 示 )。 


<34W, os 车 竺 哄 SApPps 去 其 他 运营 商 骨 干 接口 
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图 2-4 SDN 网 络 Peer 部 署 模型 


这 种 模型 下 ， 软 件 定义 网 络 接口 (SDN interface，SDNi) 就 是 前 面 讨论 的 东西 向 接 
口 。 这 时 这 些 东西 向 接口 最 好 采用 传统 的 路 由 协议 〈 比 如 BGP) 进行 数据 交互 ， 而 不 用 
另外 创造 一 个 新 的 协议 来 进行 交互 。 因 为 BGP 是 非常 成 熟 的 域 间 协议 , 所 以 一 个 原则 是 
跨 域 协议 原来 有 哪些 协议 就 用 哪些 。 不 过 ， 这 种 Peer 模型 存在 一 个 问题 ， 就 是 当 跨 多 个 
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域 的 业务 时 , 还 需要 上 面 有 一 个 类 似 传统 OSS 的 系统 来 完成 各 个 控制 器 之 间 的 业务 配置 
数据 的 配置 ， 以 便 整 个 网 络 能 够 协同 工作 。 
另外 一 个 模型 是 Layered 分 层 模型 ， 整 个 模型 如 图 2-5 所 示 。 


“338_oss < 全 AP “去 其 他 运营 商 得 干 接口 





图 2-5 ”SDN 网 络 Layered 部 署 模型 


这 种 分 层 模型 下 ， 域 控制 器 之 间 没 有 东西 向 接口 ， 都 被 南北 向 的 SDNI 替代 了 。 
为 此 时 域 控 制 器 之 间 的 数据 交互 都 通过 一 个 父 控制 器 (Super Controller) 完成 。Layered 
分 层 模型 有 效 地 把 东西 向 接口 转换 为 南北 向 接口 ,这 种 架构 是 更 加 符合 SDN 理念 的 一 个 
架构 。 当 然 ， 需 要 留意 父 控制 器 和 其 他 运营 商 网 络 之 间 的 对 接 接口 ， 这 个 接口 无 论 如 何 
是 一 个 东西 向 接口 ， 因 为 要 和 其 他 运营 商 网 络 互通 ， 东 西向 协议 接口 是 必需 的 。 因 为 运 
营 商 之 间 网 络 必须 考虑 使 用 标准 协议 对 接 ， 并 且 一 定 是 跨 域 的 。 结 论 是 ， 即 使 Layered 
模型 成 功 地 使 域 控制 器 之 间 不 需要 运行 东西 接口 协议 ， 但 是 由 于 涉及 跨 运 营 商 网 络 ， 控 
制 器 还 是 需要 实现 传统 的 跨 域 协议 来 支持 运营 商 网 络 之 间 的 互通 。 

在 上 述 两 种 模型 中 ，Peer 模型 采用 传统 跨 域 协议 对 接 ， Layered 模型 使 用 SDNI 南北 
向 接口 对 接 ， 后 者 目前 还 没有 成 熟 的 标准 ， 但 是 从 整体 架构 看 ，Layered 模型 的 确 更 加 
符合 SDN 理念 ， 能 够 支持 业务 快速 创新 能 力 。 对 于 Layered 模型 ， 如 果 把 域 控 制 器 和 父 
控制 器 看 成 是 一 个 控制 器 系统 ， 从 模型 上 看 ， 控 制 器 系统 和 单 自治 系统 的 一 个 控制 器 没 
有 区 别 。 未 来 运营 商 网 络 是 否 需 要 这 样 一 个 大 的 网 络 控制 器 系统 就 可 以 呢 ? 我 认为 未 来 
运营 商 网 络 系统 中 只 需要 一 个 控制 器 ， 这 个 控制 器 是 个 分 布 式 控制 器 集群 系统 (包含 域 
控制 器 和 父 控制 器 )。 这 个 控制 器 集群 系统 管控 着 所 有 的 运营 商 网 络 , 就 如 同 目前 网 络 中 
的 域名 系统 (Domain Name System，DNS) 一 样 ， 可 以 理解 为 Internet 网 络 一 共 就 一 个 
DNS， 但 其 实 它 是 一 个 分 层 的 集群 系统 。 

综 上 所 述 ， 无 论 采 用 什么 模型 ， 控 制 器 最 终 都 需要 考虑 东西 向 接口 ， 并 且 需 要 实现 
传统 的 跨 域 协议 ， 比 如 BGP 等 ， 来 完成 传统 网 络 以 及 跨 运 营 商 网 络 之 间 的 对 接 。 

目前 各 家 控制 器 平台 能 够 很 好 地 支持 和 传统 网 络 互通 的 很 少 ， 比 如 ODL 开源 控制 
器 目前 就 不 支持 ， 其 主要 原因 是 ODL 是 面向 数据 中 心 (Data Center，DC) 设计 的 ， 不 
是 面向 运营 商 网 络 设计 的 。 也 有 一 些 厂家 的 控制 器 对 此 支持 得 很 好 ,比如 华为 的 控制 器 ， 
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是 面向 运营 商 WAN 和 DC 网 络 的 统一 控制 器 ， 能 够 支持 与 各 种 传统 东西 向 接口 对 接 。 


2.3 SDN 网 络 的 工作 流程 解析 


2.3.1 SDN 网 络 的 控制 器 和 转发 器 的 控制 通道 建立 过 程 


在 SDN 网 络 架 构 下 , 引入 了 集中 的 SDN 控制 器 。SDN 控制 器 是 SDN 网 络 中 的 大 
脑 ， 是 控制 单元 ， 而 转发 器 是 SDN 网 络 中 的 手脚 ， 是 执行 单元 。SDN 控制 器 和 转发 器 
之 间 的 通信 通道 的 建立 和 维护 非常 关键 ， 如 果 通 信 通 道 出 现 故障 ， 大 脑 和 手脚 就 将 失 
去 联系 ， 导 致 SDN 网 络 瘫痪 。 下 面 介绍 SDN 控制 器 和 转发 器 之 间 的 控制 通道 是 如 何 
打通 的 。 

SDN 控制 通道 有 带 内 与 带 外 控制 通道 两 种 通信 方式 。 

Q@ 带 外 方式 : 转发 器 通过 独立 的 物理 网 络 (管理 网 络 ) 和 控制 器 连接 。 控 制 通道 报 
文 和 用 户 业 务 数据 报 文 不 会 共用 物理 链 路 。 转 发 器 会 通过 专用 接口 连接 到 管理 网 络 上 , 通 
常 的 转发 器 管理 地 址 配置 在 这 个 专用 接口 上 。 

@ 带 内 方式 : 控制 通道 和 用 户 业 务 共用 一 张 物理 网 络 ， 转 发 器 通过 随 路 网 络 和 控 
制 器 进行 通信 ， 控 制 通道 报 文 和 转发 数据 报 文 会 共用 物理 链 路 。 转 发 器 的 管理 地 址 可 配 
置 在 业务 接口 上 。 

对 于 大 型 IP 网 络 ， 出 于 成 本 因素 考虑 ， 一 般 选 择 采 用 带 内 控制 通道 方式 。SDN 控 
制 通道 带 内 和 带 外 方式 各 项 要 素 对 比 见 表 2-1。 

表 2-1 SDN 控制 通道 带 内 和 带 外 方式 对 比 

和 营 内 方式 z 
和 业务 网 络 共用 物理 网 络 ， 成 本 低 
通过 为 控制 通道 提供 高 优先 级 Fabric 
路 径 和 高 优先 级 QoS 来 实现 
靠 网 络 收敛 自 愈 。 控 制 面 收 敛 过 程 发 


出 的 高 优先 级 控制 报 文 ， 当 网 络 拥塞 
时 会 挤占 低 优先 级 转发 数据 报 文 











成 本 需要 独立 的 信 令 物理 网 络 ， 成 本 高 
独占 网 络 带宽 ， 控 制 通道 报 文 不 受 数据 通 


Re 道 转 发 报 文 影响 


靠 网 络 收敛 自 愈 。 控 制 面 收敛 过 程 在 独立 


故障 影响 带 外 网 络 完 成 ， 对 转发 数据 业务 没有 影响 


SDN 控制 器 和 转发 器 之 间 控 制 通道 的 建立 ， 存 在 一 个 是 先 有 鸡 还 是 先 有 有 蛋 的 问题 。 
因为 转发 器 没有 智能 ， 转 发 器 转发 表 都 是 由 控制 器 生成 的 ， 那 么 控制 器 如 何 能 够 在 转发 
器 转发 表 没有 生成 的 时 候 与 转发 器 建立 联系 呢 ? 一 种 方法 是 控制 器 和 每 个 转发 器 有 一 个 
直接 连接 的 物理 线路 ， 这 样 控 制 器 通过 这 个 物理 线路 可 以 和 任何 一 个 转发 器 通信 。 但 是 
这 样 做 要 求 控制 器 配置 很 多 这 样 的 接口 ， 同 时 需要 部 署 很 多 物理 线路 连接 每 个 转发 器 ， 
这 样 做 工程 上 基本 不 可 行 。 

男 外 一 种 方法 就 是 上 面 介绍 的 带 外 方式 ， 建 立 一 个 独立 的 管理 网 络 ， 让 控制 器 用 这 
个 独立 的 网 络 和 转发 器 通信 。 这 个 方式 是 可 行 的 ， 当 然 ， 这 个 独立 的 管理 网 络 中 的 设备 
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的 转发 表 需 要 自己 生成 ， 而 且 是 用 传统 分 布 式 网 络 的 方法 生成 ， 而 不 能 通过 控制 器 来 控 
制 了 。 和 否则 ， 这 个 独立 的 管理 网 络 也 存在 网 络 控制 器 如 何 和 管理 网 络 的 转发 器 通信 的 问 
题 ， 舱 套 死 循环 了 。 这 个 独立 的 带 外 管理 网 络 可 以 直接 运行 简单 的 分 布 式 控 制 网 络 的 
传统 IGP， 确保 控制 器 和 转发 器 之 间 的 通信 打通 。 采 用 带 外 专用 管理 网 络 来 连接 控制 
器 和 转发 器 , 需要 这 个 带 外 的 网 络 有 足够 的 带宽 资源 ， 以 确保 控制 器 和 转发 器 之 间 的 
通信 。 

更 多 场景 下 ， 用 户 不 可 能 专门 建立 一 个 管理 网 络 ， 也 就 是 说 独立 的 管理 网 络 是 不 存 
在 的 ， 只 能 采用 带 内 控制 通道 来 进行 通信 。 说 到 带 内 的 控制 通道 ， 就 又 回 到 了 是 先 有 
鸡 还 是 先 有 蛋 的 问题 了 。 其 实 不 用 担心 ， 在 这 种 情况 下 ， 仍 然 需要 传统 的 分 布 式 网 络 
协议 的 帮助 来 解决 控制 通道 问题 。 控 制 通道 本 身 不 能 通过 控制 器 来 计算 路 径 和 生成 路 
由 ， 而 是 需要 部 署 一 个 传统 的 分 布 式 控制 协议 来 完成 ， 这 个 协议 只 要 保证 连通 性 就 可 
以 。 由 于 是 带 内 通信 ， 所 以 通信 带宽 就 不 是 问题 了 。 其 中 对 于 三 层 网 络 和 二 层 网 络 ， 
需要 采用 不 同 的 协议 来 负责 打通 控制 通道 。 比 如 ， 三 层 网 络 可 以 采用 传统 的 IGP( 比 
如 OSPF、ISIS 路 由 协议 ) 来 进行 路 由 学 习 和 打通 控制 通道 ， 二 层 网 络 可 以 采用 MSTP 
协议 来 协助 破 环 建立 二 层 连 接 。 

1. 二 层 网 络 SDN 网 络 控制 通道 的 建立 

如 果 控 制 器 和 转发 器 都 位 于 一 个 二 层 网 络 内 部 ， 也 就 是 控制 器 和 转发 器 的 通信 地 址 
都 是 在 同一 个 二 层 子 网 ， 那 么 它们 是 如 何 建立 控制 通道 的 呢 ? 图 2-6 所 示 为 二 层 网 络 下 
的 SDN 转发 器 与 控制 器 控制 通道 的 建立 。 


SDN 控制 器 A 合演 





图 2-6 二 层 网 络 下 的 SDN 转发 器 与 控制 器 控制 通道 的 建立 


这 种 情况 的 一 个 主要 应 用 场景 是 数据 中 心 控 制 器 。 在 数据 中 心 内 部 ， 控 制 器 和 交换 
机 之 间 可 以 部 署 在 同一 个 子 网 内 ， 也 就 是 控制 器 的 人 P 地 址 和 交换 机 的 卫 地 址 都 在 同一 
个 网 段 ， 这 样 它们 之 间 可 以 通过 二 层 寻 址 ， 不 需要 进行 三 层 路 由 寻 址 。 为 了 隔离 控制 器 
和 转发 器 通信 与 其 他 用 户 业 务 之 间 的 通信 ， 建 议 把 它们 之 间 的 通信 划分 到 一 个 独立 的 虚 
拟 网 络 内 部 ， 比 如 利用 数据 中 心 内 部 的 交换 机 支持 VLAN 的 虚拟 二 层 网 络 技术 来 隔离 。 
这 样 控 制 器 和 转发 器 (交换 机 ) 通过 VLAN 形成 一 个 专用 的 管理 网 络 ， 隔 离 了 用 户 虚 拟 
网 络 和 管理 控制 网 络 之 间 的 流量 。 在 二 层 网 络 内 部 重要 的 问题 是 要 解决 转发 环 路 问题 。 
在 传统 二 层 交 换 网 络 中 ,通常 使 用 MSTP 来 解决 这 个 问题 ,在 管理 网 络 VLAN 内 部 , 仍 
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然 可 以 使 用 MSTP 对 该 VLAN 进行 破 环 。 

2. 三 层 网 络 控制 通道 建立 技术 

通常 的 广域网 的 SDN 网 络 ， 会 使 用 三 层 网 络 来 打通 控制 器 到 转发 器 之 间 的 控制 通道 。 

在 数据 中 心 内 部 ， 有 时 可 以 采用 二 层 网 络 来 完成 控制 器 和 转发 器 之 间 的 控制 通道 。 
当然 ， 在 数据 中 心 内 部 ， 如 果 网 络 规模 很 大 ， 同 样 也 需要 三 层 网 络 技术 来 解决 控制 器 和 
转发 器 之 间 的 通信 通道 建立 问题 。 

下 面 先 介绍 三 层 网 络 中 SDN 转发 器 与 控制 器 控制 通道 的 建立 与 维护 过 程 ， 如 图 2-7 
所 示 。 


SDN 控制 器 《局 油 
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图 2-7 三 层 网 络 下 的 SDN 转发 器 与 控制 器 控制 通道 的 建立 


在 控制 器 和 转发 器 之 间 运 行 IGP， 比 如 ISIS 或 者 OSPF 协议 ， 这 样 控制 器 就 和 下 
面 的 转发 器 网 络 形成 了 一 个 IGP 域 ， 此 时 的 控制 器 就 是 一 台 普 通 的 路 由 器 而 已 。 既 然 
是 普通 的 路 由 器 ,控制 器 就 会 学 习 到 所 有 的 IGP 的 拓扑 ， 并 生成 它们 之 间 的 互联 路 由 。 
这 样 一 来 ， 控 制 器 和 转发 器 之 间 的 通信 关系 自然 就 如 同一 个 传统 分 布 式 网 络 ; 利用 传 
统 的 分 布 式 路 由 技术 ， 控 制 器 和 转发 器 之 间 保 持 了 高 可 靠 的 联通 性 ， 达 到 了 有 路 就 能 
通信 的 目的 。 

但 是 此 时 还 有 一 个 问题 要 注意 ， 如 果 是 一 个 普通 的 路 由 器 ， 这 个 路 由 器 拥有 专用 的 
转发 引擎 部 件 ， 是 可 以 转发 用 户 业 务 数据 流量 的 ， 也 就 是 说 ， 用 户 数据 是 可 以 通过 任何 
一 个 普通 路 由 器 进行 报 文 转发 的 ， 而 控制 器 是 一 个 软件 控制 系统 ， 是 运行 在 一 组 服务 器 
上 的 一 个 分 布 式 软件 ， 它 的 主要 功能 是 控制 功能 ， 完 成 各 种 网 络 资源 管理 和 路 径 计 算 ， 
而 基础 硬件 设施 是 服务 器 。 如 果 让 控制 器 和 一 台 普 通路 由 器 一 样 工作 ， 某 些 情况 下 ， 会 
把 用 户 业 务 数据 转发 给 控制 器 ， 结 果 会 形成 用 户 流 量 对 控制 器 的 流量 攻击 。 由 于 控制 器 
是 运行 在 一 组 服务 器 上 ， 这 些 服务 器 并 没有 普通 转发 器 专用 的 转发 引擎 部 件 ， 这 种 用 户 
业务 数据 流量 就 会 大 量 地 涌 入 控制 器 系统 ， 足 以 使 得 控制 器 次 痪 。 另 外 一 个 副作用 是 ， 
会 导致 控制 器 到 网 络 的 连接 链 路 的 流量 拥塞 。 原 本 假定 仅仅 控制 信息 通过 这 些 链 路 ， 但 
是 如 果 用 户 数据 流量 也 进入 了 这 条 链 路 上 ， 链 路 就 会 拥塞 ， 导致 控制 信息 的 丢失 或 者 延 
时 ， 所 以 恨 好 的 设计 是 不 能 让 用 户 数据 进入 到 控制 器 的 。 

既然 这 样 ， 控 制 器 就 不 是 一 个 普通 路 由 器 ， 在 控制 器 上 使 能 的 IGP 需要 做 一 些 特殊 
控制 ， 配 置 一 些 功 能 特性 来 阻止 流量 转发 到 控制 器 。 幸 运 的 是 ， 在 IGP 中 有 一 个 类 似 的 
功能 能 够 做 到 这 一 点 。 在 ISIS 协议 中 有 一 个 OVERLOAD 功能 ， 使 能 这 个 功能 就 阻止 了 
流量 进入 控制 器 。 而 OSPF 协议 也 有 类 似 的 STUB router 特性 可 以 解决 这 个 问题 ， 这 个 
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功能 可 以 把 控制 器 和 转发 器 之 间 的 链 路 COST 设置 为 最 大 。 

当然 ， 所 谓 控制 器 不 能 转发 用 户 流量 ， 可 以 说 是 一 个 限制 ， 在 某 些 特定 场景 ， 这 个 
限制 也 可 以 去 掉 ， 这 种 场景 是 控制 器 本 身 就 运行 在 某 台 转发 器 里 面 。 在 一 些小 规模 网 络 
中 ， 客 户 可 能 不 需要 部 署 一 个 独立 的 控 
制 器 ， 而 是 希望 能 够 在 某 台 路 由 器 上 直 
接 把 控制 器 软件 运行 在 里 面 ， 这 样 ， 这 
台 控 制 器 本 身 同 时 也 是 一 台 路 由 器 ， 它 
也 可 以 转发 流量 。 罗 辑 上 看 到 的 这 个 路 
由 器 是 SDN 控制 器 ， 这 个 SDN 控制 器 
也 是 路 由 器 ， 物 理 上 部 署 在 同一 台 设 备 
上 ， 其 部 署 方案 如 图 2-8 所 示 。 

此 时 控制 器 不 能 转发 流量 的 限制 是 
可 以 去 掉 的 , 华为 SDN 虚拟 接 入 解决 方 
案 就 能 支持 控制 器 直接 运行 在 路 由 器 上 , 满足 了 上 述 需 求 。 但 是 ， 如果 是 大 规模 SDN 网 
络 ， 控 制 器 可 能 需要 大 量 的 计算 资源 ， 那 么 一 台 路 由 器 上 的 计算 资源 不 足以 满足 要 求 ， 
就 不 得 不 部 署 独立 控制 器 。 此 时 ， 这 种 独立 控制 器 通常 都 是 服务 器 集群 ， 一 般 是 不 希望 
处 理 用 户 转发 流量 的 。 

关于 控制 器 是 否 处 理 用 户 转 发 流量 问题 ， 还 引发 出 另外 一 个 问题 : 控制 器 实现 架构 
中 有 一 种 技术 是 流 触 发 生成 转发 表 ， 也 就 是 说 ， 对 于 一 个 转发 表 中 不 存在 转发 表 数 据 的 
用 户 流 进入 转发 器 时 ， 转 发 器 需要 把 这 个 用 户 报 文 递交 给 控制 器 ， 控 制 器 根据 这 个 报 文 
来 生成 一 个 转发 表 下 发 给 转发 器 ， 使 得 该 用 户 流 的 下 一 个 报 文 进入 系统 时 就 可 以 命中 转 
发 表 进 行 转发 了 。 

另外 一 种 流 表 生成 技术 类 似 于 传统 的 卫 网 络 技术 ， 或 者 卫 网 络 转 发 理念 。 当 一 个 
报 文 进入 转发 器 时 ， 如 果 没 有 命中 转发 表 ， 意 味 着 这 个 报 文 无 法 转发 ， 直 接 丢 弃 处 理 。 
这 种 理念 源 于 控制 面 会 提前 把 所 需 的 转发 表 下 发 到 转发 器 。 如 果 一 个 报 文 没 有 命中 ， 送 
给 控制 器 ， 控 制 器 也 无 从 处 理 。 因 为 这 些 转发 表 是 控制 协议 生成 的 ， 域 内 的 一 些 路 由 由 
控制 器 自己 生成 ， 域 间 的 会 通过 域 间 路 由 协议 〈 比 如 BGP) 学 习 过 来 。 如 果 转 发 表 没 有 
这 个 表 项 ， 说 明 控 制 面 还 没有 学 习 过 来 这 个 路 由 或 者 根本 就 没有 这 个 目的 地 ， 这 种 方式 
称 作 预 路 由 方式 。 

究竟 是 流 触发 生成 转发 表 合适 还 是 预 路 由 更 加 合适 ， 从 安全 性 角度 上 看 ， 流 触发 显 
然 容易 造成 流量 攻击 ， 为 攻击 者 提供 了 一 个 合理 合法 的 攻击 路 径 。 攻 击 者 可 以 使 用 各 种 
未 知 目的 报 文 对 系统 进行 遍历 扫描 攻击 ， 使 得 大 量 报 文 进入 控制 器 ， 形 成 对 控制 器 的 流 
量 攻击 。 尽 管 技术 上 也 可 以 采用 一 些 手 段 来 解决 这 种 问题 ， 但 是 面 对 管 理 通道 的 带宽 占 
用 和 控制 器 CPU 资源 消耗 的 问题 , 这 些 解决 手段 都 不 如 预 路 由 方式 来 得 干脆 。 因 为 预 路 
由 在 传统 网 络 是 一 种 成 熟 、 广 泛 使 用 的 工作 方式 ， 流 触发 生成 转发 表 技 术 是 一 种 不 合适 
的 技术 ， 也 不 符合 卫 技术 的 核心 理念 ,仅仅 在 某 些 极其 特殊 场景 下 使 用 ， 并 且 要 注意 做 
好 流 攻 击 阻 断 工作 。 

在 一 些 应 用 场景 里 面 , 控制 器 没有 直接 连接 到 所 控制 的 网 络 , 也 没有 专用 管理 网 络 ， 
控制 器 和 转发 器 的 控制 通道 需要 穿越 某 些 中 间 网 络 ， 如 图 2-9 所 示 。 
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图 2-8 控制 器 运行 在 路 由 器 内 部 
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图 2-9 控制 器 远程 管控 网 络 


控制 器 和 转发 器 之 间 由 于 没有 直接 接口 相连 ， 不 能 简单 地 在 直 连 物理 接口 上 使 能 
IGP。 比 如 一 个 控制 器 部 署 在 远程 的 一 个 数据 中 心里 面 ， 去 管控 一 个 远程 网 络 ， 当 考虑 
到 可 靠 性 的 时 候 ， 需 要 考虑 控制 器 的 异地 数据 中 心 部 署 ， 也 需要 控制 器 远程 穿越 某 些 网 
络 去 管控 网 络 。 那 么 该 如 何 解 决 这 个 问题 呢 ? 这 种 情况 下 ， 一 个 简单 的 方案 就 是 在 转发 
器 和 控制 器 之 间 建 立 一 个 隧道 , 隧道 可 以 是 GRE 隧道 或 者 VXLAN 隧道 等 , 并 在 这 个 隧 
道上 启动 IGP。IGP 把 这 个 隧道 接口 作为 一 个 普通 接口 来 进行 路 由 。 这 种 方案 可 以 解决 
控制 器 和 网 络 之 间 的 远程 控制 通信 问题 。 传 统 主流 IP 设备 (比如 华为 、 思 科 的 产品 ) 上 
是 可 以 支持 类 似 IGP over 隧道 技术 的 。 

如 果 采 用 带 内 方式 作为 控制 通道 , 还 需要 考虑 一 种 SDN 控制 和 分 布 式 控制 混合 
部 署 场景 。 这 种 混合 组 网 场景 ， 除 了 需要 在 分 布 式 控制 面部 署 业 务 IGP 外 ， 还 需要 
为 SDN 控制 器 部 署 一 个 建立 控制 通道 所 需 的 IGP。 对 于 一 个 转发 器 ， 如何 区 分 是 为 
控制 通道 生成 的 IGP， 还 是 为 用 户 业 务 生成 的 IGP 路 由 ， 以 及 如 何 隔离 它们 ? 如 果 
这 些 路 由 表 数 据 都 添加 到 了 一 个 路 由 表 实 例 里 面 ， 如 果 出 现 冲突 ， 该 如 何 处 理 ? 面 
对 这 些 问 题 ， 可 以 在 转发 器 上 使 能 一 个 虚拟 网 络 ， 这 个 虚拟 网 络 可 以 使 用 传统 的 
L3VPN 技术 ， 这 个 虚拟 网 络 专门 为 控制 器 和 转发 器 之 间 的 控制 通道 服务 ， 就 如 同 在 
物理 网 络 上 提供 了 一 个 管理 专 网 一 样 。 当 然 , 这 种 方式 显然 可 以 有 效 解决 冲突 问题 ， 
但 是 实际 上 并 不 是 必需 的 。 也 可 以 简单 利用 原来 的 分 布 式 控制 面 的 IGP， 把 控制 器 
加 入 到 这 个 IGP 域 ， 而 不 是 为 控制 器 专门 启用 一 个 IGP。 然 后 对 控制 器 和 转发 器 的 
连接 IP 地 址 进行 统一 规划 , 避免 这 些 控 制 域 连接 地 址 和 业务 地 址 之 间 的 冲突 。 这 样 ， 
这 些 路 由 即使 在 同一 路 由 表 实 例 中 ， 也 不 会 发 生 冲 突 ， 而 且 同 样 实 现 了 控制 器 和 转 
发 器 之 间 的 控制 连接 能 力 。 很 多 应 用 场景 都 是 采用 这 种 解决 方案 ， 比 如 后 文 将 介绍 
的 PCE+ 解 决 方案 和 RR+ 解 决 方案 ， 基 本 上 都 是 直接 利用 传统 网 络 的 IGP， 把 控制 
器 配置 到 现存 的 IGP 网 络 内 部 , 控制 器 直接 就 可 以 和 IGP 域内 的 每 台 路 由 器 进行 通 
信 了 as 

用 上 面 描述 的 方法 建立 的 控制 通道 ， 当 网 络 发 生 状 态 变化 时 ， 由 于 采用 了 传统 的 分 
布 式 控制 网 络 技术 作为 控制 通道 建立 的 技术 ， 所 以 能 够 达到 任何 时 刻 只 要 拓扑 上 有 路 连 
接 , 通信 就 能 够 打通 的 要 求 ， 同 时 故障 感知 到 的 收敛 时 间 也 都 在 1s 以内。 通常 主流 厂家 
的 IGP 收敛 时 间 可 以 做 到 这 一 点 。 


第 2 章 SDN 网 络 的 工作 原理 35 


2.3.2 ”SDN 控制 器 的 资源 收集 过 程 


1， 网 元 资源 信息 收集 

一 旦 控制 器 和 转发 器 的 控制 通道 建立 完成 ， 控 制 器 和 转发 器 之 间 就 可 以 建立 控制 协 
议 的 连接 了 ， 比 如 OpenFlow 等 协议 。 通 常 的 控制 器 会 作为 控制 协议 的 服务 端 ， 转 发 器 
会 主动 向 控制 器 发 起 控制 协议 建立 ， 控 制 器 接收 到 转发 器 的 连接 请 求 ， 通 过 认证 之 后 ， 
控制 协议 的 连接 就 建立 起 来 了 。 

接 下 来 是 转发 器 向 控制 器 注册 信息 、 上 报 资源 的 过 程 。 注 册 信 息 包 括 设 备 各 种 资源 
信息 ， 比 如 接口 资源 、 标 签 资源 、VLAN 资源 等 ， 也 包括 设备 厂家 相关 信息 ， 比 如 设备 
ID、 设 备 厂家 信息 、 设 备 类 型 和 设备 版 本 号 等 。 控 制 器 采集 这 些 信 息 是 为 了 根据 这 些 信 
息 来 安装 特定 的 驱动 程序 。 由 于 控制 器 需要 控制 多 厂家 的 设备 ， 不 同 厂家 的 设备 和 控制 
器 之 间 的 接口 协议 和 接口 数据 模型 可 能 不 同 ， 为 了 解决 这 些 厂 家 设备 的 差异 问题 ， 就 需 
要 在 控制 器 实现 一 种 动态 安装 驱动 程序 的 能 力 。 这 些 驱动 程序 会 完成 控制 器 到 特定 厂家 
的 设备 的 接口 协议 和 数据 转换 功能 。 控 制 器 正 是 需要 根据 设备 厂家、 设备 类 型 、 设 备 版 
本 号 来 本 地 搜索 和 加 载 对 应 的 驱动 程序 。 

控制 器 需要 收集 标签 信息 ， 这 里 的 标签 信息 是 指 MPLS 标签 。 这 是 因为 控制 器 控制 
的 网 络 内 部 交换 技术 通常 采用 MPLS 交换 。 采 用 MPLS 交换 的 原因 是 因为 这 项 技术 非常 
成 熟 ， 所 有 传统 设备 厂家 都 可 以 支持 ; 也 因为 MPLS 交换 技术 的 报 文 封装 比较 短小 ,通常 
仅仅 需要 4 字 节 ， 有 利于 节省 网 络 的 带宽 占用 。 相 对 地 ， 其 他 隧道 技术 如 GRE、IPSEC、 
VXLAN 等 封装 开销 都 需要 40 字 节 以 上 ; 而 且 MPLS 交换 技术 因为 封装 消耗 小 ,转发 面 
在 实现 报 文 封装 和 解 封装 方面 的 性 能 也 比 其 他 隧道 技术 高 ， 实 现 也 简单 。 相 反 ， 采 用 类 
似 GRE 等 IP 隧道 技术 ,很 难 实现 显 式 路 径 的 流量 工程 。 因此， 在 SDN 控制 的 网 络 内 部 
使 用 MPLS 交换 技术 是 最 合适 的 。 使 用 MPLS 交换 技术 ， 就 需要 控制 器 为 转发 器 生成 标 
签 交 换 路 径 〈Label Switch Path，LSP)。 控 制 器 要 为 整 条 LSP 分 配 标签 ， 这 些 标签 资源 
是 转发 器 的 一 种 协议 资源 ， 不 能 由 控制 器 独立 生成 这 些 标签 空间 数据 。 按 照 标准 协议 ， 
理论 上 每 台 转 发 器 的 标签 空间 大 概 是 1 一 100 万 (MPLS 标准 协议 定义 了 20bit 作为 标签 
位 ), 但 是 实际 上 不 同 厂家 设备 能 够 支持 的 标签 空间 达 不 到 100 万 的 能 力 ， 只 能 支持 部 分 
标签 空间 ， 这 样 就 需要 控制 器 收集 转发 器 的 标签 空间 资源 。 另 外 一 个 原因 是 ， 网 络 在 实 
际 部 署 SDN 时 , 为 了 解决 现 网 平滑 迁移 到 SDN 的 问题 , 存在 分 布 式 控制 和 SDN 控制 器 
控制 混合 组 网 的 情况 ， 分 布 式 控制 面 本 身 会 占用 一 部 分 标签 ， 控 制 器 并 不 能 使 用 这 些 被 
占用 的 标签 ， 这 样 转发 器 需要 把 那些 可 以 由 控制 器 分 配 的 标签 上 报 给 控制 器 。 同 时 ， 标 
签 资源 是 一 种 协议 资源 ， 需 要 相关 的 转发 器 、 控 制 器 之 间 保 持 标签 资源 的 唯一 性 ， 不 太 
可 能 采用 虚拟 化 机 制 〈 控 制 器 分 配 虚拟 标签 ， 在 转发 器 上 转化 为 物理 标签 的 一 种 机 制 )。 

控制 器 需要 获得 转发 器 的 接口 资源 信息 ， 每 台 转 发 器 需要 把 本 转发 器 上 的 接口 信息 
上 报 给 控制 器 。 接 口 信息 数据 中 需要 包括 接口 名 字 、 接 口 ID、 接 口 类 型 、 接 口 带 宽 资源 
等 。 这 些 接口 在 逻辑 上 分 为 两 组 ， 其 中 一 组 是 网 络 的 外 联 业务 接口 〈 外 联 口 )， 这 些 接口 
连接 到 SDN 网 络 外 部 的 网 络 设备 上 ， 这 些 外 部 网 络 设备 并 不 归属 SDN 控制 ;另外 一 组 
接口 是 连接 网 络 的 内 部 接口 〈 内 联 口 )， 这 些 接口 是 SDN 控制 的 网 络 设备 之 间 的 接口 。 
控制 器 需要 管理 外 联接 口 的 原因 是 ， 控 制 器 需要 知道 网 络 下 面 有 多 少 外 联 业务 口 可 以 部 
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署 业务 ， 在 部 署 业务 时 需要 对 这 些 外 联 口 进行 业务 配置 ， 控 制 器 需要 获得 内 联 口 信息 的 
原因 ， 是 控制 器 需要 利用 这 些 接口 信息 最 终 形成 拓扑 ， 以 便 计算 网 络 内 部 的 交换 路 径 。 
控制 器 还 需要 根据 接口 的 带宽 信息 计算 网 络 内 部 的 交换 路 径 ， 以 确保 网 络 业务 流量 不 会 
集中 到 某 些 链 路 上 ， 而 其 他 链 路 却 空闲 的 问题 发 生 。 这 类 最 短路 径 拥塞 、 其 他 路 径 空闲 
的 问题 是 传统 网 络 的 常见 问题 。 

控制 器 还 需要 收集 一 些 其 他 资源 信息 ， 比 如 VLAN 信息 和 一 些 隧道 ID 等 信息 。 控 制 
器 之 所 以 要 了 解 这 些 资源 信息 ， 是 出 于 与 收集 标签 信息 同样 的 理由 : 网 络 部 署 SDN 和 分 
布 式 控制 面 混合 组 网 时 , 一 些 资源 被 分 布 式 控制 面 占 用 , 控制 器 只 能 获得 一 部 分 可 用 资源 。 
比如 VLAN 资源 ， 只 在 外 联 口 的 业务 接 入 时 使 用 ， 如 果 这 个 接口 的 一 些 VLAN 已 经 被 使 
用 ， 控 制 器 就 不 能 使 用 这 些 VLAN。 所 以 转发 器 需要 上 报 可 用 VLAN 资源 给 控制 器 。 

2. 拓扑 信息 收集 

资源 收集 过 程 结 束 后 ， 控 制 器 还 需要 进行 网 络 拓扑 信息 收集 。 网 络 拓扑 是 描述 网 络 
中 节点 和 链 路 以 及 节点 之 间 的 连接 关系 的 信息 。 网 络 拓扑 通常 由 三 个 对 象 组 成 : 节点 对 
象 、 接 口 对 象 (TP，terminal point， 业 务 接 入 点 )、 链 路 对 象 。 节 点 对 象 就 是 转发 器 对 象 ， 
由 节点 ID 标记, 该 节点 信息 在 转发 器 上 报 设备 ID 时 生成 。 接 口 对 象 是 转发 器 上 的 接口 ， 
用 节点 ID+ 接 口 ID 标记 , 接口 信息 也 是 由 转发 器 上 报 给 控制 器 。 链 路 对 象 是 由 两 个 接口 
标记 的 ， 就 是 左 接口 + 右 接口 ， 其 ID 是 ( 左 节点 ， 左 接口 ， 右 节点 ， 右 接口 ) 组 成 的 。 
这 个 拓扑 信息 是 不 能 通过 每 个 转发 器 上 报信 息 上 换 F 
报 上 来 的 。 转 发 器 可 以 上 报 设备 对 象 和 接口 对 象 ， 
但 是 不 能 上 报 链 路 对 象 信息 。 拓 扑 中 的 链 路 对 象 Ne 
dae 图 2-10 “拓扑 中 的 链 路 对 旬 

控制 器 可 以 获得 转发 器 A 以 及 上 面 的 接口 Al 
和 接口 A2 信息 , 也 可 以 获得 转发 器 B 以 及 上 面 的 接口 B1 和 接口 B2 信息 , 但 是 转发 器 A 
和 B 都 不 知道 这 些 接口 之 间 的 连接 关系 , 不 能 把 这 种 连接 关系 上 报 给 控制 器 。 控 制 器 必须 
要 有 一 个 方法 来 收集 这 种 连接 关系 以 确定 链 路 对 象 信息 ， 才 能 获得 完整 的 拓扑 信息 。 

控制 器 收集 拓扑 的 方法 目前 已 经 有 不 少 标 准 协 议定 义 ， 其 中 一 个 主要 的 拓扑 协议 是 
链 路 层 发 现 协议 (Link Layer Discovery Protocol，LLDP)， 它 是 IEEE 802.1ab 中 定义 的 
二 层 网 络 设备 发 现 协 议 ， 尤 其 适用 在 数据 中 心 网 络 中 。 其 基本 原理 是 转发 器 向 每 个 接口 
发 送 一 个 LLDP 报 文 ， 这 个 协议 报 文 中 会 包括 发 送 设 备 ID 和 发 送 接 口 ID， 比 如 图 2-10 
中 ， 向 转发 器 A 的 接口 Al 发 送 的 LLDP 报 文 将 携带 有 节点 ID 和 接口 D， 为 (转发 器 
A， 接 口 A1)， 向 转发 器 A 的 接口 A2 发 送 LLDP 报 文 携 带 ( 转 发 器 A， 接 口 A2)。 接 
收 到 LLDP 报 文 的 设备 增加 自己 接收 该 报 文 的 接口 信息 和 设备 ID 保存 在 本 地 数据 库 
中 。 如 图 2-10 中 ， 转 发 器 B 形成 LLDP 的 数据 库 内 会 有 下 面 的 信息 。 

本 地 接口 BL， 远 端 接口 : 转发 器 A， 接 口 Al 

本 地 接口 B2， 远 端 接口 ， 转发 器 A， 接口 A2 

这 样 ， 控 制 器 可 以 通过 向 转发 器 B 获取 这 些 信息 得 到 如 下 的 数据 库 信 息 。 


链 路 对 象 1: 转发 器 B， 接 口 B1， 转 发 器 A， 接 口 Al 
链 路 对 象 2， 转发 器 B， 接 口 B2， 转 发 器 A， 接 口 A2 


控制 器 就 获得 转发 器 A 和 转发 器 B 之 间 的 连接 关系 ,形成 拓扑 中 链 路 对 象 信息 。 如 
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果 控 制 器 从 每 台 转 发 器 都 获得 类 似 的 信息 ， 最 后 控制 器 就 获得 了 完整 的 二 层 网 络 拓扑 。 

三 层 拓 扑 收集 协议 通常 利用 传统 的 IGP， 比 如 ISIS/OSPF， 这 些 传 统 路 由 协议 为 了 
计算 路 由 ， 原 本 就 收集 网 络 的 拓扑 信息 。 这 样 通过 控制 器 和 转发 器 之 间 运 行 IGP， 可 以 
直接 把 网 络 拓扑 收集 到 控制 器 。IGP 为 了 解决 扩展 性 问题 ， 都 采用 了 划分 区 域 的 设计 ， 
比如 ISIS 的 Level 设计 、OSPF 的 Area 设计 ， 这 导致 了 控制 器 虽然 可 以 收集 到 单个 区 域 
的 拓扑 ， 但 无 法 形成 整个 自治 系统 的 拓扑 。 目 前 IETF 有 一 个 BGP-LS (BGP Link- State， 
参考 IETF 协议 draft-ietf-idr-ls-distribution-10) 协议 可 以 收集 多 域 的 拓扑 。 总 之 ， 通 过 各 
种 拓扑 收集 协议 ， 控 制 器 能 够 获得 全 网 的 拓扑 信息 。 

在 一 些 应 用 场景 中 ， 还 会 通过 人 工 配 置 的 方式 向 拓扑 中 增加 一 些 对 象 。 也 可 能 通过 
一 些 外 部 接 入 协议 在 拓扑 中 增加 一 些 接 入 设备 的 信息 ， 这 些 接 入 设备 是 接 入 SDN 网 络 的 
外 部 设备 ， 有 点 像 传统 网 络 的 CE。 尽 管 这 些 接 入 设备 并 不 归属 控制 器 控制 ， 但 由 于 各 种 
业务 需求 ， 控 制 器 内 部 维护 接 入 设备 的 信息 是 需要 的 。 比 如 在 数据 中 心 ， 需 要 拓扑 中 能 够 
管理 接 入 网 络 的 虚拟 机 的 信息 ,以 便 应 用 程序 能 够 获得 这 个 虚拟 机 是 从 哪个 交换 机 进入 网 
络 的 位 置信 息 。 这 个 位 置信 息 是 控制 器 计算 路 由 的 必需 条 件 ; 还 有 在 业务 链 需求 中 的 增值 
业务 处 理 设 备 (Value Added Service，VAS， 通 常 指 防火 墙 、 负 载 均 衡器 、 内 容 缓存 等 ) 的 
位 置信 息 ， 以 便 控 制 器 能 够 计算 出 业务 链 路 由 ， 完 成 用 户 的 业务 链 需 求 。 

控制 器 收集 这 些 网 络 信 息 和 设备 资源 信息 后 ， 会 存储 这 些 信息 到 内 部 数据 库 。 这 些 
数据 可 以 使 用 内 存 存储 或 者 数据 库存 储 。 如 何 存 储 这 些 数据 取决 于 性 能 要 求 。 由 于 控制 
器 控制 网 络 是 一 个 实时 控制 过 程 ， 对 实时 性 要 求 非常 高 ， 那 么 对 这 些 数据 的 存储 、 检 索 
查询 时 间 性 能 就 要 求 很 高 ， 所 以 需要 高 性 能 的 存储 方式 。 数 据 库 作为 一 种 持久 化 存储 方 
式 ， 实 时 性 能 有 所 欠缺 。 而 内 存 数据 库 性 能 提升 很 大 ， 是 可 以 考虑 使 用 的 。 当 然 ， 各 个 
厂家 也 可 以 根据 自己 的 技术 能 力 设 计 出 高 性 能 的 数据 存储 方式 。 

控制 器 收集 这 些 网 络 信息 尤其 是 网 元 信息 ， 应 该 是 网 元 的 相关 的 逻辑 信息 ， 而 不 应 
该 包含 任何 物理 细节 信息 ， 比 如 转发 器 有 几 个 单 板 、 转 发 器 是 集中 式 还 是 分 布 式 的 ， 这 
些 对 于 控制 器 来 说 都 是 不 需要 的 。 控 制 器 需要 对 网 元 进行 建 模 ， 抽 象 出 一 套 转发 器 网 元 
的 模型 。 这 样 使 得 控制 器 可 以 不 用 关心 转发 器 具体 的 物理 实现 细节 。 这 一 点 很 重要 ， 如 
果 说 控制 器 一 定 要 管理 物理 转发 器 设备 细节 ， 比 如 风扇 、 电 源 、 面 板 、 单 板 等 ， 那 么 本 
质 上 是 把 一 个 网 元 网 管 (EMS) 集成 到 控制 器 ， 轴 辑 上 仍然 要 视 作 控制 器 和 网 元 网 管 两 
个 逻辑 单元 ， 只 是 物理 部 署 在 一 起 而 已 。 这 里 强调 控制 器 的 控制 功能 ， 不 建议 把 管理 功 
能 直接 和 控制 功能 混淆 ， 但 并 不 排除 可 以 在 SDN 控制 器 集成 一 个 网 元 网 管 。 

通过 上 述 过 程 ， 控 制 器 已 经 获得 了 完整 的 拓扑 信息 ， 并 已 经 从 转发 器 收集 到 了 必要 
的 转发 器 网 元 资源 信息 ， 比 如 接口 、 标 签 、VLANID 等 信息 。 有 了 这 些 信 息 控 制 器 就 可 
以 进行 下 一 步 的 路 由 计算 过 程 了 。 
2.3.3 ”SDN 控制 器 的 流 表 计算 和 下 发 过 程 

下 面 介 绍 的 控制 器 为 转发 器 计算 流 表 的 过 程 。 通 信 是 双向 的 ， 以 一 个 单方 向 的 流量 
路 径 的 建立 和 业务 路 由 的 建立 为 例 ， 回 程 的 流量 路 径 和 业务 路 由 建立 过 程 是 一 致 的 。 

1. SDN 网 络 内 部 交换 路 由 的 生成 

现在 控制 器 已 经 收集 到 了 网 元 资源 信息 和 网 络 拓扑 信息 ， 控 制 器 将 利用 这 些 信 息 来 
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完成 转发 器 的 转发 流 表 的 计算 和 下 发 。 在 讨论 这 个 问题 之 前 ， 需 要 对 网 络 的 模型 进行 一 
个 抽象 建 模 。 控 制 器 所 控 网 络 的 组 成 如 图 2-11 所 示 。 





图 2-11 控制 器 所 控 网 络 的 组 成 


把 SDN 控 制 器 控制 的 网 络 看 成 两 个 组 成 部 分 :一 部 分 是 边界 的 业务 接 入 节点 (位 于 SDN 
网 络 边界 ， 负 责 业 务 接 入 的 转发 器 ， 传 统 网 络 称 为 PE，Provider Edge)， 对 应 图 2-11 中 的 业 
务 接 入 节点 1、 业 务 接 入 节点 2、 业 务 接 入 节点 3， 另 外 一 部 分 是 内 部 的 Fabric 交换 网 (网 
络 内 部 交换 路 径 , 用 于 SDN 网 络 内 部 设备 业务 接 入 节点 之 间 全 连接 的 互联 虚 链 路 ), 对 应 图 
2-11 中 的 Fabric12、Fabric13、Fabric23。 中 间 的 Fabric 是 控制 器 根据 边界 业务 接 入 点 之 间 的 
关系 自动 建立 的 一 个 交换 网 ， 以 便 用 户 业 务 从 一 个 业务 接 入 点 进入 控制 器 网 络 ， 能 够 通过 这 
些 Fabric 转发 到 另外 一 个 业务 接 入 点 ， 然 后 离开 控制 器 所 控制 的 网 络 。 这 种 Fabric 可 以 经 
过 多 个 转发 器 , 控制 器 需要 完成 这 个 内 部 的 网 络 交换 路 径 的 计算 。 控 制 器 计算 网 络 交换 路 径 
是 根据 用 户 业 务 策略 来 进行 的 ， 策 略 不 同 ， 算 法 也 不 相同 。 有 的 业务 需要 特定 带宽 和 时 延 ， 
网 络 交换 路 径 的 计算 就 需要 考虑 网 络 的 带宽 、 时 延 等 属性 ; 有 的 业务 可 能 不 关心 带宽 、 时 延 
属性 ， 只 关心 可 达 性 ， 网 络 交换 路 径 的 计算 可 能 只 需要 选择 一 条 可 用 路 径 就 可 以 ， 简 单方 法 
是 利用 传统 网 络 相 同 技 术 ， 使 用 最 短路 径 转 发 用 户 业 务 数据 报 文 。 

在 图 2-11 中 ， 以 Fabric12 创建 为 例 ,控制 器 会 利用 网 络 拓扑 信息 计算 出 从 业务 接 入 
节点 1 到 业务 接 入 节点 2 的 Fabric12 的 内 部 交换 路 径 为 : 

业务 接 入 节点 1 一 转发 器 P1 一 业务 接 入 节点 2 


然后 ， 控 制 器 会 为 这 些 转发 器 生成 内 部 交换 网 的 交换 路 由 数据 。 前 面 介 绍 了 ， 通 常 
的 内 部 交换 网 的 实际 交换 技术 采用 MPLS 交换 ， 所 以 控制 器 会 从 本 地 MPLS 标签 资源 中 
分 配 标签 ， 这 些 标签 是 转发 器 上 报 给 控制 器 使 用 的 标签 。 有 具体 过 程 是 控制 器 从 本 地 维护 
的 转发 器 Pl 标签 空间 中 为 这 个 Fabric12 分 配 标签 ， 比 如 标签 10， 这 个 标签 将 用 于 指示 
业务 接 入 节点 1 把 需要 进入 Fabric12 的 报 文 压 入 标签 10， 并 发 送 到 接口 Il 上 ; 同时 也 
将 用 于 指示 转发 器 P1， 当 从 IfI 接口 上 收 到 标签 10 的 报 文 ， 是 Fabric12 的 一 个 报 文 ; 
控制 器 从 本 地 维护 的 业务 节点 2 标签 空间 中 为 这 个 Fabric12 分 配 标签 ， 比 如 标签 20。 然 
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后 分 别 为 业务 接 入 节点 1、 转 发 器 P1 和 业务 接 入 节点 2 生成 内 部 交换 路 由 信息 。 
为 业务 接 入 节点 1 生成 交换 路 由 : 


Interface 1/12actionpushLabellabel 10 outgoing interface 717 


其 中 Ifl 是 连接 业务 接 入 节点 1 和 转发 器 P1 的 物理 接口 。 
为 转发 器 Pl1 生成 交换 路 由 : 


Interface 太 in-label 10 action swap out-label 20 outgoing interface /2 
为 业务 节点 2 生成 交换 路 由 : 
Interface J/2 in-label 20 action pop 


这 样 ， 控 制 器 就 为 业务 接 入 节点 1 和 业务 接 入 节点 2 创建 了 一 条 内 部 交换 路 径 
Fabric12， 在 业务 接 入 节点 1 看 来 有 一 个 接口 Ifl2 可 以 直接 到 达 业 务 接 入 节点 2 了 。 

2. 边缘 业务 接 入 路 由 的 处 理 

边缘 的 业务 接 入 点 是 用 于 接 入 网 络 业 务 的 ， 所 有 的 用 户 流量 都 需要 通过 边缘 业务 接 
入 节点 进入 网 络 ， 然 后 穿 过 内 部 交换 网 ， 到 达 另 外 一 个 边缘 的 业务 接 入 节点 。 边 缘 业 务 
节点 必须 知道 进入 的 报 文 到 底 该 送 给 哪个 边缘 业务 节点 才 是 正确 的 ， 比 如 图 2-12 中 , 一 
个 目的 地 址 为 11.8.9.12 的 报 文 从 CE1 侧 进入 业务 接 入 节点 1 后 ,业务 节点 1 该 把 这 个 报 
文 转发 给 业务 接 入 节点 2 还 是 业务 接 入 节点 3 呢 ?” 这 个 过 程 是 业务 路 由 (是 指 那 些 外 部 
网 络 的 路 由 ，SDN 需要 学 习 这 些 业 务 路 由 所 在 的 网 络 位 置 ， 以 便 能 够 正确 地 把 用 户 业 务 
数据 报 文 转发 给 正确 的 边缘 业务 接 入 节点 。 另 外 ，SDN 控制 器 还 需要 把 这 些 业务 路 由 问 
其 他 外 部 网 络 传递 扩散 ) 的 计算 过 程 。 业 务 路 由 计算 过 程 是 控制 器 和 外 部 网 络 交互 路 由 
的 过 程 。 控 制 器 首先 需要 和 网 络 外 部 的 CE1、CE2、CE3 建立 外 部 路 由 协议 ， 这 里 例子 
是 BGP。 通 过 这 些 BGP， 控 制 器 会 学 习 到 网 络 的 网 段 所 在 的 位 置 ， 图 2-12 中 ， 控 制 器 
将 通过 业务 接 入 节点 2 和 CE2 建立 的 BGP 学 习 到 

IP prefix 11.8.9.12/24 BGP Nexthop CE2 

通过 业务 搂 入 点 3 和 CE3 建立 的 BGP 学 习 到 


IP prefix 1.0.9.8/24BGP Nexthop CE3 







SDN 控制 器 A 


11.8.9.12/24 


sy | LD 


业务 接 入 节点 1 


1.0.9.8/24 


图 2-12 业务 路 由 计算 过 程 
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控制 器 通过 这 样 的 外 部 BGP 邻居 知道 了 前 级 11.8.9.12/24 的 位 置信 息 是 在 业务 接 入 
节点 2 的 If22 接口 上 ， 前 级 1.0.9.8/24 的 位 置信 息 是 在 业务 接 入 节 3 的 接口 [33 上 ， 这 
样 控 制 器 接 下 来 利用 这 些 位 置信 息 可 以 为 网 络 计算 业务 路 由 信息 ， 计 算 结果 如 下 。 

人 为 接 入 业务 节点 1 计算 出 的 路 由 信息 为 : 


IP prefix 11.8.9.12/24 Nexthop 以 务 胡 入 节 抽 2 Outgoing Interface 1f12 
IP prefix 1.0.9.8/24 Nexthop 以 务 秦 入 节点 3 Outgoing Interface Jf13 


这 里 的 接口 Ifl2 和 If13 是 网 络 内 部 的 Fabric 隧道 接口 ，If 即 Interface， 亦 即 接口 的 
意思 ， 下 同 。 
@ 为 接 入 业务 节点 2 计算 出 的 路 由 信息 为 : 


IP prefix 71.8.9.72/24 Nexthop CE2 Outgoing Interface J/22 
IP prefix 1.0.9.8/24 Nexthop 几 多 礁 入 苍 虎 3 Outgoing Interface J]23 


@ 为 接 入 业务 节点 3 计算 出 的 路 由 信息 为 : 


IP prefix 11.8.9.12/24 Nexthop 几 务 从 和 信芳 虚 2Outgoing Interface 1/23 
IP prefix 1.0.9.8/24 Nexthop CE3 Outgoing Interface 1/33 


有 了 这 些 转发 表 ， 一 个 从 业务 接 入 节点 1 进入 网 络 的 目的 地 址 为 11.8.9.12 的 人 * 报 
文 ， 可 以 寄 经 过 业务 接 入 节点 1 转发 到 业务 节点 2， 然 后 转发 器 可 以 顺利 地 把 报 文 从 业 
务 接 入 节点 1 转发 到 业务 接 入 节点 2， 然 后 由 业务 节点 2 转发 给 CE2，CE2 可 以 把 报 文 
转发 给 目的 地 了 。 

这 里 ，CE1 如 何 知道 这 个 目的 地 址 为 11.8.9.12 的 报 文 该 送 交 给 业务 节点 1 呢 ?CE1 
也 需要 知道 前 级 11.8.9.12/24 的 路 由 信息 。 这 条 路 由 信息 是 CE1 通过 和 控制 器 之 间 的 BGP 
学 习 过 来 的 ， 也 就 是 说 ， 是 控制 器 通过 BGP 把 这 条 路 由 通告 给 了 CE1。 这 样 整个 路 由 的 
学 习 过 程 完成 了 ， 并 且 转 发 器 能 够 顺利 地 把 报 文 转发 给 目的 地 。 

仍然 有 一 个 问题 : BGP 在 传统 网 络 里 是 在 业务 接 入 节点 和 CE 之 间 运 行 , 现在 要 再 把 
BGP 运行 在 控制 器 上 ， 如 何 做 到 的 呢 ? 有 两 种 可 行 的 方案 第 一 种 方案 是 OpenFlow 的 
Packet-in/out 方案 ; 第 二 种 方案 是 控制 器 直接 和 CE 之 间 运 行 BGP。 第 一 种 方案 ,在 CE 
看 来 ， 不 感知 BGP 是 运行 在 控制 器 还 是 转发 器 ， 而 业务 接 入 节点 收 到 BGP 报 文 后 直接 用 
OpenFlow 协议 的 Packet-In/out 机 制 ， 把 报 文 送 交 给 控制 器 ， 控 制 器 发 送 BGP 报 文 时 再 同 
样 地 反 向 发 送 回 去 。 第 二 种 方案 , 控制 器 可 以 直接 和 CE 建立 BGP 邻居 , 不 需要 OpenFlow 
协议 。 前 一 种 方案 实现 起 来 和 传统 网 络 类 似 ， 容 易 实 现 ， 后 一 种 方案 还 要 解决 一 些 BGP 
邻居 位 置 的 问题 ， 如 果 控 制 器 通过 类 似 多 跳 BGP 和 周边 设备 建立 BGP 邻居 ， 而 此 时 控制 
器 无 法 感知 这 个 BGP 邻居 是 通过 哪个 业务 接 入 节点 连接 的 。 如 图 2-13 所 示 ， 控 制 器 和 外 
部 网 络 建立 了 BGP 邻居 ， 是 经 过 了 一 个 网 络 的 多 跳 BGP 邻居 ， 但 是 控制 器 为 了 生成 业务 
路 由 ， 必 须 掌 握 从 每 个 邻居 过 来 的 路 由 前 缀 (如 11.9.8.12/24) 的 接 入 网 络 的 位 置 ， 也 即 是 
控制 器 必须 了 解 这 些 网 络 路 由 前 缀 通过 哪个 业务 接 入 节点 的 哪个 接口 上 可 以 到 达 , 否则 控 
制 器 没有 办 法 生成 上 面 的 路 由 表 信 息 。 为 了 解决 这 个 问题 ， 推 荐 的 一 个 方案 是 可 以 考虑 采 
用 人 工 配 置 BGP 邻居 位 置 的 方法 。 比 如 在 图 2-13 中 ， 控 制 器 和 CE2 建立 了 BGP 邻居 ， 
可 以 人 工 方式 告诉 控制 器 ， 这 个 BGP 邻居 的 位 置 是 通过 网 络 的 边界 业务 接 入 节点 2 连接 
到 SDN 网 络 的 。 通 过 这 种 方式 ，BGP 就 获得 了 该 邻居 的 位 置信 息 ， 这 样 就 能 够 正确 地 生 
成 业务 路 由 了 。 
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这 里 总 结 一 下 前 面 控制 器 的 路 由 计算 功能 ， 把 网 络 模型 抽象 为 网 络 中 有 一 些 边 缘 业 
务 接 入 点 以 及 内 部 的 交换 网 ， 边 缘 的 业务 接 入 节点 负责 接 入 外 部 业务 ， 内 部 交换 网 在 网 
络 内 部 交换 用 户 数据 ， 这 是 对 网 络 的 一 个 基本 的 模型 抽象 ， 如 图 2-14 所 示 。 


SDN 控制 器 人 RN 
7 ~ 


11.8.9.12/24 








图 2-14 ”SDN 网 络 抽象 模型 图 


这 里 的 业务 路 由 仅仅 以 BGP 为 例 ， 也 包括 一 些 传统 的 其 他 路 由 协议 ， 比 如 L3VPN 
支持 的 PE 和 CE 之 间 的 IGP 等 。 

这 两 种 基本 的 计算 功能 构成 了 控制 器 内 部 的 核心 业务 逻辑 ， 也 是 控制 器 内 部 关键 的 
网 络 业务 应 用 程序 (这些 应 用 程序 是 提供 网 络 业务 的 程序 ， 不 是 使 用 /调用 网 络 业 务 的 应 
用 程序 。 此 类 网 络 业 务 应 用 程序 通常 包括 L2VPN 业务 应 用 程序 、L3VPN 业务 应 用 程序 
等 。 在 SDN 网 络 三 层 架 构 模 型 的 最 上 层 的 APP〈 应 用 程序 )， 是 使 用 /调用 网 络 业 务 的 应 
用 程序 。 需 要 区 别 这 两 个 “应 用 程序 ”的 概念 : 通常 的 网 络 业务 应 用 程序 可 以 理解 为 是 
控制 器 的 一 部 分 ,而 调用 这 些 网 络 业务 服务 的 应 用 程序 不 属于 控制 器 的 一 部 分 ),， 这 些 网 
络 业务 应 用 程序 利用 网 络 资源 数据 计算 网 络 内 部 交换 路 径 ， 生 成 交换 路 由 信息 ; 利用 和 
外 部 设备 进行 协议 交换 获取 业务 路 由 信息 ， 并 生成 业务 路 由 表 ， 同 时 还 需要 协助 在 网 间 
扩散 这 些 路 由 信息 。 


2.3.4 ”转发 表 下 发 协议 
控制 器 一 旦 计算 完成 这 些 业 务 路 由 信息 和 内 部 交换 转发 信息 ， 就 可 以 把 这 些 信息 下 
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发 给 每 个 转发 器 ， 以 便 指 导 转 发 器 完成 用 户 流量 转发 。 

有 多 种 协议 支持 转发 表 的 下 发 , 包括 PCE 协议 、 BGP、Netconf 协议 、OpenFlow 协议 等 。 
对 于 标准 PCE 协议 而 言 ， 只 能 完成 网 络 内 部 交换 路 径 信息 的 下 发 。PCE 采用 控制 器 计算 网 
络 内 部 交换 路 径 ， 然 后 通过 PCEP 把 路 径 信息 下 发 到 交换 路 径 的 起 始 业务 接 入 节点 ， 在 这 个 
业务 接 入 节点 上 通过 标准 RSVP 来 建立 真正 交换 路 径 。 一 种 增强 的 改进 方式 是 通过 PCEP 扩 
展 支持 PCECC， 直 接 建立 内 部 交换 路 径 ， 这 样 做 能 够 在 网 络 中 去 除 RSVP， 简 化 网 络 。 

采用 BGP， 通 常 利用 标准 的 BGP RR 的 能 力 ， 直 接 控制 BGP 的 IP 路 由 。 华 为 文 持 
一 种 RR+ 扩 展 方案 ， 能 够 支持 网 络 内 部 的 卫 交换 路 径 ， 达 到 IP 显 式 路 径 的 目的 。 通 过 
IP 显 式 路 径 可 以 进行 基于 卫 的 流量 工程 。 华 为 RR+ 技 术 同 时 增强 了 BGP 对 转发 器 的 控 
制 , 通过 控制 器 生成 期 望 的 他 路 由 ， 直 接 通 过 BGP RR 路 由 协议 下 发 到 转发 器 ， 转 发 器 
会 把 该 路 由 作为 最 优选 路 由 安装 到 转发 器 的 转发 引擎 ， 从 而 达到 控制 器 直接 控制 转发 器 
IP 路 由 的 目的 、 这 种 控制 器 通过 BGP RR 对 转发 器 控制 的 方法 业务 路 由 时 非常 有 用 。 该 
方案 的 另外 一 个 用 处 是 对 网 络 边界 业 务 接 入 节点 的 路 由 进行 控制 ， 能 够 达到 灵活 引导 流 
量 进入 和 离开 网 络 的 目的 。 详 细 可 参考 后 面 解决 方案 章节 介绍 。 

采用 Netconf 协议 作为 控制 协议 时 ， 主 要 会 调用 转发 器 设备 提供 的 北向 操作 接口 。 
这 些 北向 接口 可 以 通过 静态 路 由 、 静态 LSP、 静 态 PW、 静 态 MAC 等 控制 接口 来 对 设备 
进行 控制 。 尽 管 Netconf 是 配置 协议 ， 但 是 其 中 一 些 静态 配置 接口 其 实 也 完全 可 以 作为 
控制 接口 使 用 。 比 如 控制 器 计算 出 一 条 LSP 路 径 ， 就 可 以 通过 Netconf 协议 的 静态 LSP 
配置 完成 路 径 建 立 ， 而 当 网 络 拓扑 变化 ， 需 要 更 新 LSP 时 ， 控 制 器 可 以 撤销 原来 的 静态 
LSP， 把 新 的 LSP 重新 通过 Netconf 下 发 ， 达 到 控制 网 络 的 目的 。 也 就 是 说 ，Netconf 协 
议 下 发 的 数据 中 ， 有 一 部 分 是 控制 数据 ， 而 非 配置 数据 。 通 过 Netconf 下 发 控制 数据 的 
问题 是 ， 流 表 的 更 新 速度 慢 ， 导 致 收敛 性 能 低 。 

采用 OpenFlow 协议 ， 直 接 通过 控制 器 下 发 流 表 给 转发 器 ， 转 发 器 再 根据 这 些 流 表 完 
成 数据 转发 ， 是 一 种 比较 单纯 的 技术 方案 。 这 种 方案 的 优点 是 : 性 能 高 ， 如 果 未 来 
OpenFlow 协议 标准 化 成 熟 后 ， 可 以 更 加 容易 实现 多 厂家 互通 对 接 ; 可 以 促进 转发 芯片 标 
准 化 ， 进 而 对 设备 白 牌 化 有 极 大 帮助 。 

总 之 ， 流 表 下 发 的 协议 选择 是 多 种 多 样 的， 一 些 PCE、BGP、Netconf 协议 在 很 多 
演进 场景 非常 有 价值 。 这 些 协议 在 SDN 场景 下 可 以 作为 转 控 分 离 协 议 。 而 OpenFlow 是 
一 种 标准 的 转 控 分 离 协 议 ， 伴 随 着 SDN 诞生 而 诞生 ， 成 熟 后 将 有 极 大 的 价值 。 


2.3.5 ”SDN 转发 面 的 报 文 转发 过 程 
控制 器 在 为 转发 器 生成 了 内 部 交换 路 由 信息 和 业务 路 由 信息 后 ， 转 发 器 就 可 以 根据 


这 些 信 息 进 行 用 户 数据 报 文 转发 了 。 当 一 个 目的 卫 地 址 为 11.8.9.12 的 报 文 进入 业务 接 
入 节点 1〈 转 发 器 ) 时， 该 转发 器 会 查找 业务 路 由 表 ， 获 得 的 路 由 为 : 


IP prefix 11.8.9.12/24 Nexthop 业务 区 入 芳和 虞 2 Outgoing Interface Jf12 


于 是 转发 器 会 把 该 报 文 转发 给 出 接口 Il2。 出 接口 Ifl2 不 是 一 个 物理 接口 而 是 一 个 
逻辑 接口 ， 于 是 转发 器 会 查找 对 应 的 内 部 交换 路 由 信息 ， 获 得 数据 如 下 : 


Interface 1f12 actionpushLabel label 10 outgoing interface 1/1 
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根据 这 些 数 据 ， 转 发 器 就 会 把 这 个 报 文 压 入 标签 10， 并 把 该 携带 标签 10 的 MPLS 
报 文 发 送 给 物理 出 接口 Ifl 。 

随后 报 文 会 被 转发 给 转发 器 P1， 转 发 器 P1 收 到 该 报 文 后 ， 会 本 地 查找 交换 路 由 表 
并 获得 : 

Interface 1/1 in-label 70 action swap out-label 20 outgoing interface /2 


转发 器 P1 会 把 报 文 的 入 标签 10 交换 为 标签 20， 并 发 送 到 物理 出 接口 I 人 2。 

报 文 会 继续 被 转发 到 业务 接 入 节点 2， 业 务 接 入 节点 2 会 查找 本 地 交换 路 由 表 ， 获 
得 信息 为 : 

Interface 1/2 in-label 20 action pop 

根据 这 些 数据 ， 业 务 接 入 节点 2 会 弹出 MPLS 的 标签 20， 发 现 该 标签 已 经 是 MPLS 
标签 栈 底 ， 所 以 直接 送 给 IP 查找 业务 路 由 表 ， 获 得 路 由 信息 为 : 


IP prefix 11.8.9.12/24 Nexthop CE2 Outgoing Interface 1/22 


根据 这 些 数 据 ， 业 务 接 入 节点 2 会 把 目的 全 地 址 11.8.9.12 的 报 文 发 送 给 出 接口 Tt 

这 样 ， 目 的 他 地址 为 11.8.9.12 的 报 文 会 通过 CE2 转发 给 目的 主机 ， 从 而 完成 整个 
转发 流程 。 

事实 上 ， 上 面 的 转发 过 程 和 原来 的 传统 转发 过 程 没有 任何 区 别 ， 因 为 转发 面 在 SDN 
网 络 和 传统 IP 网 络 所 完成 的 功能 是 相同 的 。 在 SDN 网 络 下 ， 转 发 面 的 转发 表 〈 包 括 内 
部 交换 路 由 和 业务 路 由 ) 数据 是 从 控制 器 下 发 的 ， 而 传统 网 络 是 路 由 器 分 布 式 自动 计算 
的 。 在 SDN 网 络 架 构 下 ， 尽 管 转发 面 的 转发 技术 可 以 使 用 OpenFlow 转发 技术 (注意 这 
里 说 的 是 OpenFlow 转发 技术 ， 不 是 OpenFlow 控制 协议 。OpenFlow 转发 技术 是 一 种 转 
发 面 技 术 ， 是 一 种 采用 多 表 ， 每 张 表 的 模型 都 是 类 似 MATCH、ACTION、GOTO 
NEXTTABLE 模式 的 多 表 转 发 技术 ) ， 但 这 并 不 是 必需 的 ， 使 用 传统 的 转发 流程 是 完全 
一 样 的， 主要 是 因为 都 要 实现 同样 的 转发 面 功能 。 这 种 是 否 使 用 OpenFlow 转发 的 区 别 ， 
如 同 传统 路 由 器 不 同 厂商 本 来 就 使 用 着 不 同 的 转发 实现 技术 一 样 。 不 过 ， 对 于 一 个 支持 
真正 的 OpenFlow 转发 的 转发 引擎 ， 在 某 种 角度 上 比 传统 路 由 器 的 转发 要 灵活 一 些 


2.3.6 ”控制 器 和 多 厂家 转发 器 的 互通 


控制 器 和 转发 器 之 间 有 多 种 控制 协议 可 以 使 用 ， 比 如 PCE 协议 、BGP、Netconf 协 
议 、OpenFlow 协议 等 。 对 于 类 似 PCE 协议 和 BGP， 已 经 是 标准 协议 ， 如 果 厂 家 不 进行 
私有 扩展 ， 那 么 控制 器 采用 这 些 协议 可 以 直接 进行 多 厂家 转发 器 互通 。 而 对 于 Netconf 
协议 和 OpenFlow 协议 ， 则 都 面临 互通 问题 。 

Netconf 协议 本 身 是 标准 化 的 ， 但 其 内 部 传送 的 数据 并 没有 标准 化 ， 每 个 厂家 的 转发 
器 利用 Netconf 提供 的 北向 操作 接口 模型 不 同 。 这 种 不 同 是 有 原因 的 。 厂 家 为 了 快速 满足 
客户 需求 而 开发 新 业务 时 ， 不 可 能 先 让 标准 组 织 定义 标准 北向 操作 模型 ， 然 后 再 去 实现 ， 
这 样 做 ， 时 间 太 漫长 了 。 厂 家 必须 先 实现 业务 ， 并 交付 客户 使 用 。 另 外 ， 对 于 比较 成 熟 的 
业务 ，IETF 一 直 没 有 定义 出 统一 的 标准 操作 模型 ， 只 定义 了 一 些 SNMP 的 MIB， 但 是 远 
不 能 满足 实际 需求 。 现 在 IETF 又 在 讨论 定义 标准 的 YANG 北向 模型 ， 试 图 统一 成 熟 业务 
的 北向 模型 。 只 要 涉及 标准 讨论 定义 ， 过 程 都 会 很 漫长 。 
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控制 器 如 果 采 用 Netconf 协议 和 多 厂家 对 接 ， 就 必须 考虑 如 何 对 接 多 厂家 的 不 同 模 
型 。 一 个 可 能 的 方案 是 控制 器 开放 驱动 程序 框架 ， 人 允许 各 个 厂家 写 一 段 驱动 程序 ， 把 控 
制 器 下 发 的 数据 转换 为 自己 的 设备 模型 数据 ， 而 不 是 等 待 模型 标准 化 。 这 种 做 法 显然 在 
技术 上 完全 可 行 ， 只 要 控制 器 能 够 定义 统一 数据 模型 ， 各 个 厂家 的 转发 器 就 可 以 对 接 这 
个 数据 模型 。 在 工程 上 ， 由 于 多 厂家 目前 还 处 于 竞争 阶段 ， 一 个 厂家 可 能 不 愿意 为 男 外 
一 个 厂家 的 控制 器 完成 驱动 程序 开发 ， 导 致 控制 器 无 法 控制 这 些 没有 驱动 的 转发 器 。 为 
了 解决 此 类 问题 ， 一 种 可 能 的 方法 是 请 第 三 方 来 编写 驱动 程序 ， 另 一 个 可 能 的 办 法 是 ， 
如 果 控 制 器 厂家 已 经 取得 市 场 主导 地 位 ， 这 样 其 他 转发 器 厂家 考虑 利益 会 主动 完成 该 控 
制 器 的 驱动 程序 开发 。 除 此 之 外 ， 如 果 一 些 具有 支配 地 位 的 客户 ， 选 择 了 某 个 厂家 的 控 
制 器 ， 要 求 进入 该 客户 的 转发 器 都 必须 对 接 他 采购 的 控制 器 ， 这 种 情况 转发 器 厂家 通常 
也 会 同意 完成 驱动 程序 开发 ， 这 是 一 个 利益 博弈 的 过 程 。 

当 采 用 OpenFlow 协议 和 多 厂家 互通 时 ， 也 面临 多 厂家 流 表 不 一 致 的 问题 ， 需 要 一 
个 转换 程序 对 三 家 的 流 表 进 行 转换 。 控 制 器 厂家 定义 一 套 自 己 的 OpenFlow 流 表 ， 其 他 
厂家 通过 驱动 程序 转换 为 自己 厂家 的 转发 器 的 OpenFlow 流 表 。 当 然 其 结果 和 前 面 讨 论 
的 Netconf 差不多 。 


2.3.7 网络 状 态 变 化 处 理 


前 面 讨论 了 SDN 网 络 收集 资源 信息 ， 利 用 这 些 资源 信息 ，SDN 控制 器 会 计算 网 络 
内 部 交换 路 径 ，SDN 控制 器 还 会 和 外 围 设备 进行 交互 ， 学 习 和 扩散 业务 路 由 ， 并 在 业务 
接 入 节点 生成 业务 路 由 表 。 

SDN 网 络 通过 控制 器 实现 了 网 络 的 集中 控制 。 当 网 络 故障 时 ， 网 络 状态 发 生变 化 ， 
SDN 控制 嚣 会 自动 完成 网 络 的 交换 路 径 和 业务 路 由 的 重新 计算 过 程 , 并 更 新 转发 器 的 转 
发 表 。 通 常 网 络 故障 分 为 两 种 ， 一 种 是 网 络 内 部 节点 或 者 链 路 故障 ， 另 一 种 是 网 络 业务 
接 入 节点 故障 或 者 业务 接 入 接口 故障 。 

对 于 第 一 种 故障 情况 ， 通 常 控制 器 会 实时 感知 到 这 些 故障 。 故 障 通 告 主要 来 自转 发 
器 上 报 故 障 和 拓扑 变化 通告 。 当 控制 器 获得 这 些 故 障 信息 时 ， 会 自动 对 网 络 内 部 受到 影 
响 的 交换 路 径 进 行 重新 计算 ， 以 保证 网 络 内 部 的 交换 路 径 恢复 到 工作 状态 。 

第 二 种 故障 通常 会 影响 业务 路 由 的 计算 。 控 制 器 一 方面 会 对 受到 影响 的 业务 路 由 进 
行 重新 计算 ， 并 生成 业务 路 由 表 下 发 给 转发 器 ， 以 恢复 业务 ; 另 一 方面 ， 控 制 器 必要 时 
也 会 把 这 种 故障 通告 给 其 他 外 部 网 络 ， 扩 散 这 种 业务 路 由 信息 ， 以 便 外 部 网 络 可 以 选择 
其 他 网 络 进行 数据 转发 。 


2.3.8 ”SDN 网 络 工 作 流 程 总 结 


经 过 上 面 的 分 析 ， 可 以 总 结 SDN 网 络 的 基本 工作 流程 如 下 。 

Q 控制 器 和 转发 器 之 间 的 控制 通道 建立 ， 通 常 使 用 传统 的 IGP 来 打通 控制 通道 。 

@ 控制 器 和 转发 器 建立 控制 协议 连接 后 ， 需 要 从 转发 器 收集 网 络 资源 信息 ， 包 括 
设备 信息 、 接 口 信 息 、 标签 信息 等 ,控制 器 还 需要 通过 拓扑 收集 协议 收集 网 络 拓 扑 信息 。 

@ 控制 器 利用 网 络 拓扑 信息 和 网 络 资源 信息 计算 网 络 内 部 的 交换 路 径 ， 同 时 控制 
器 会 利用 一 些 传统 协议 和 外 部 网 络 运行 的 一 些 传统 路 由 协议 ， 包 括 BGP、IGP 等 ,来 
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学 习 业 务 路 由 并 向 外 扩散 业务 路 由 ， 把 这 些 业务 路 由 和 内 部 交换 路 径 转发 信息 下 发 给 
转发 器。 

由 转发 器 接收 控制 器 下 发 的 网 络 内 部 交换 路 径 转 发 表 数据 和 业务 路 由 转发 表 数 
据 ， 并 依据 这 些 转发 表 进 行 报 文 转发 。 

@ 当 网 络 状态 发 生变 化 时 ，SDN 控制 器 会 实时 感知 网 络 状 态 ， 并 重新 计算 网 络 内 
部 交换 路 径 和 业务 路 由 ， 以 确保 网 络 能 够 继续 正常 提供 业务 。 


2.4 SDN 网 络 架 构 下 实现 L2VPN 实例 介绍 


本 例 介绍 简单 PW 的 实现 过 程 。 PW 是 在 两 台 PE 设备 的 接口 之 间 形 成 一 个 伪 线 方式 
穿 过 网 络 , 其 转发 必须 增加 二 层 隧道 封装 。 其 中 内 层 封装 是 通过 PW 标签 形式 加 入 报 文 ， 
这 个 标签 用 于 区 分 PW，PE 根据 标签 目的 能 够 知道 这 个 报 文 该 从 哪个 AC 接口 发 送 给 
CE; 而 外 层 隧 道 封装 可 以 是 任何 三 层 隧道 ,目的 是 把 加 入 了 PW 标签 的 报 文 转发 到 目的 
PE。 外 层 隧道 可 以 是 GRE 或 者 MPLS LSP，, 不 管 是 什么 这 个 封装 的 目的 都 是 要 把 报 文 
交换 到 目的 PE。 这 样 PW 实现 的 关键 就 是 生成 这 两 层 隧道 封装 的 数据 : PW 标签 和 隧道 
机 制 。 下 面 以 MPLS LSP 隧道 为 例 ， 介 绍 传统 的 PW 的 实现 方法 和 SDN 实现 PW 业务 
的 对 比 。 


2.4.1 传统 的 PW 实现 过 程 


基本 组 网 如 图 2-15 所 示 ，CE1、CE2 分 别 通过 VLAN 方式 接 入 PE1 和 PE2。PE1 
和 PE2 用 MPLS 与 骨干 网 连接 。 
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图 2-15 MPLS 骨干 网 基本 组 网 


目的 : 使 用 LSP 隧道 ， 在 PE1 和 PE2 之 间 建 立 动态 PW。 

基本 配置 任务 : 

@ 在 骨干 网 上 运行 IGP 路 由 协议 ， 使 骨干 网 各 设备 能 互通 ; 

@ 在 骨干 网 上 配置 MPLS 基本 能 力 ， 建 立 LSP 隧道 ; 

@) PW 两 端的 PE 之 间 要 建立 MPLS LDP 远 端 对 等 体 关 系 , 用 于 建立 PW, 传递 PW 
标签 、 识 别 PW 连接 关系 等 功能 ; 

@ 在 PE 上 创建 MPLS L2VC 连接 。 
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下 面 以 华为 设备 的 配置 文件 为 例 。 
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interface LoopBack0 

ip address 192.3.3.3 255.255.255.255 
# 

ospf 1 

area 0.0.0.0 

network 192.3.3.3 0.0.0.0 

network 10.2.2.0 0.0.0.255 

Return 


在 配置 文件 中 ， 最 重要 的 环节 就 如 同 配置 任务 中 描述 的 : 

@ 要 求 PE/P 设备 都 使 能 MPLS， 以 便 能 够 建立 PE 之 间 的 LSP 隧道 。 

@ 要 求 PE 上 使 能 PW 的 信 令 remote LDP， 以 便 它 们 之 间 交 换 PW 信息 ， 并 分 配 
PW 标签 。 

@) 把 两 端 PE 的 AC 接口 上 使 能 PW。 

其 中 使 用 了 MPLS LDP 作为 隧道 协议 ， 还 需要 使 用 Remote LDP 负责 PW 的 标签 分 
配 和 交换 。 通过 这 些 协 议 配 置 后 , 路 由 器 可 以 进行 分 布 式 计算 内 部 交换 路 径 和 业务 路 由 。 
由 于 网 络 启动 了 LDP， 因 此 上 面 的 PE1 和 PE2 之 间 的 交换 路 径 会 由 LDP 负责 建立 内 部 
的 LSP。 另 外 ，PE1 和 PE2 利用 业务 路 由 协议 Remote LDP 可 以 完成 PW 所 需 的 标签 
交换 。 

这 样 PE1 就 利用 Remote LDP 学 习 的 PW 标签 把 从 接口 GigabitEthernet1/0/0.1 进入 
的 数据 报 文 封装 PW 报 文 头 ， 并 发 送 给 PE2。 为 了 能 够 把 报 文 发 送 给 PE2， 这 个 PW 报 
文 会 被 封装 到 一 条 LSP 的 内 部 。 因 为 LSP 已 经 由 LDP 学 习 到 了 去 往 PE2 的 标签 ， 所 以 
PE1 会 把 LSP 的 外 层 隧道 标签 封装 到 PW 的 报 文 头 部 , 并 发 送 到 PE1 连接 P 的 物理 出 接 
口 Pos2/0/0。 这 样 ， 经 过 中 间 的 P 设备 的 交换 ， 报 文 进入 了 PE2 路 由 器 。PE2 路 由 器 会 
去 掉 隧 道 标 签 (有 时 采用 倒数 第 2 跳 弹 出 ，PE2 忽略 这 个 环节 )。PE2 路 由 器 根据 PW 标 
签 信息， 获取 到 该 PW 是 对 应 到 本 地 接口 GigabitEthernet 1/0/0.1， 于 是 PE2 去 掉 PW 封 
装 ， 把 报 文 发 送 到 该 接口 。 


2.4.2 SDN 网 络 下 的 PW 的 实现 过 程 


1，SDN 网 络 下 实现 PW 业务 的 配置 过 程 

下 面 介 绍 在 SDN 网 络 架 构 下 的 PW 创建 过 程 。 仍 然 使 用 前 面 的 网 络 ， 如 图 2-16 
所 示 。 

在 原来 网 络 上 增加 了 SDN 控制 器 , PW 业务 配置 直接 由 用 户 通过 北向 接口 给 控制 器 
下 发 PW 业务 配置 数据 ， 具 体 如 下 : 


L2VPN Huawei 
PW 转发 器 1 interface GigabitEthernet1/0/0.1 转发 器 2 interface GigabitEthernet1/0/0.1 


这 条 命令 指示 把 转发 器 1 ( 即 图 2-15 中 的 PE1) 上 的 接口 GE 1/0/0.1 和 转发 器 2( 也 即 
图 2-15 中 的 PE2) 上 的 接口 GE 1/0/0.1 用 PW 建立 一 个 专线 业务 。 用 户 基本 的 专线 业务 请 
求 只 需要 输入 这 些 参数 。 如 果 用 户 需 要 指定 PW 带宽 信息 ， 那 么 专线 业务 请 求 接口 是 : 


L2VPN Huawei ， 
PW 转发 器 1 interface GigabitEthernet1/0/0.1 转发 器 2 interface GigabitEthernet1/0/0.1Bandwidth 10M 
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SDN 控制 器 EN 





图 2-16 SDN 控制 器 实现 PW 业务 的 组 网 


这 样 指 定 了 一 条 PW， 并 且 要 求 10Mbit/s 带宽 。 

事实 上 , 经 过 上 面 介绍 的 给 控制 器 下 发 专线 业务 配置 之 后 ，CE1 和 CE2 就 能 够 通信 
了 ， 比 如 从 CE1 执行 Ping 100.1.1.2 已 经 可 以 Ping 通 了 。 

2. SDN 网 络 下 实现 PW 的 业务 过 程 

在 SDN 网 络 架 构 下 ， 对 于 PW 业务 的 转发 面 是 保持 不 变 的 ， 仍 然 采 用 传统 网 络 的 
转发 封装 PW 封装 和 隧道 封装 。 这 两 层 封装 所 需 数据 对 于 传统 网 络 来 说 ， 是 分 别 采 用 
分 布 式 的 Remote LDP 和 LDP 来 完成 计算 的 。 下 面 分 析 SDN 情况 下 ， 隧 道 是 如 何 创 建 
以 及 PW 封装 信息 是 如 何 获 得 的 。 

假定 SDN 控制 器 已 经 和 网 络 建立 了 连接 ,并 收集 了 网 络 拓 扑 资源 数据 和 每 个 转发 
器 的 资源 数据 。 这 里 重要 的 资源 就 是 接口 资源 和 标签 资源 数据 。 每 台 转 发 器 会 把 自己 
的 资源 上 报 给 控制 器 ， 控 制 器 会 为 每 个 转发 器 维护 这 些 资 源 数据 。 控 制 器 维护 的 这 些 
转发 器 的 数据 不 仅 包括 从 转发 器 收集 的 数据 ， 而 且 包括 控制 器 为 转发 器 生成 的 转发 流 
表 信 息 数 据 。 

(1) 控制 器 为 转发 器 生成 内 部 交换 网 过 程 

控制 器 获得 转发 器 的 资源 数据 后 ， 会 为 转发 器 1 和 转发 器 2 之 间 建 立 一 条 隧道 (网 
络 内 部 转发 器 1 到 转发 器 2 的 交换 网 )， 名 称 是 12。 在 分 布 式 控制 网 络 需 要 采用 LDP 
进行 分 布 式 计算 ， 而 在 控制 器 场景 下 实现 过 程 如 图 2-17 所 示 。 

控制 器 内 部 的 交换 网 计算 应 用 程序 会 读 取 拓 扑 信息 来 计算 一 条 转发 器 1 和 转发 器 2 
之 间 的 路 径 。 比 如 ， 计 算 结果 是 : 


If12= 转 发 器 1 经 过 接口 POS2/0/0 一 > 经 过 接口 POS1/0/0 进入 转发 器 P， 转 发 器 P 经 过 接口 POS2/0/0 一 > 经 过 POS2/0/0 
进入 转发 器 2。 


控制 器 接 下 来 开始 建立 LSP 的 工作 , 同样 是 控制 器 内 部 的 软件 来 实现 这 个 LSP 的 建 
立 。 控 制 器 需要 从 本 地 维护 的 转发 器 资源 数据 库 中 分 配 标 签 ， 这 样 生 成 从 转发 器 1 经 过 
转发 器 P， 到 达 转 发 器 2 的 一 条 LSP。 最 后 控制 器 为 每 个 转发 器 下 发 该 LSP 的 交换 网 转 
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发 表 。 对 于 转发 器 1， 生 成 的 交换 网 络 转发 流 表 为 : 


If12 push-label 20 outgoing-interface POS2/0/0 





交换 网 计算 应 用 程序 





3. 下 发 交换 网 流 表 3. 下 发 交换 网 流 表 3. 下 发 交换 网 流 表 





图 2-17 SDN 控制 器 实现 内 部 交换 路 径 过 程 


其 他 过 程 和 前 面 介 绍 的 交换 网 建立 过 程 是 一 致 的 ， 这 里 不 再 详细 描述 。 

(2) 控制 器 生成 PW 业务 路 由 

控制 器 已 经 在 转发 器 1 和 转发 器 2 之 间 建 立 了 一 条 隧道 接口 为 ff12。 用 户 给 控制 器 
下 发 了 一 条 专线 业务 配置 ， 要 求 在 转发 器 1 的 接口 GigabitEthernet1/0/0.1 和 转发 器 2 接 
口 GigabitEthernet1/0/0.1 之 间 建 立 专线 。 控制 器 内 部 的 L2VPN 业务 应 用 程序 会 开始 计算 
PW 的 业务 路 由 。 整 个 实现 过 程 如 图 2-18 所 示 。 





3. 下 发 PW 流 表 


图 2-18 ”控制 器 生成 PW 业务 路 由 
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L2VPN 业务 应 用 程序 会 根据 配置 信息 向 交换 网 计算 应 用 程序 查询 转发 器 1 到 转发 器 
2 的 隧道 信息 。 交 换 网 计算 应 用 程序 返回 If12 给 L2VPN 业务 应 用 程序 。L2VPN 业务 应 
用 程序 会 到 控制 器 本 地 维护 的 转发 器 1 资源 数据 库 和 转发 器 2 资源 数据 库 申请 PW 业务 
标签 。 假 定 从 转发 器 1 获得 的 PW 标签 为 546， 从 转发 器 2 获得 的 PW 标签 为 245， 则 形 
成 如 下 PW 的 业务 路 由 表 下 发 给 转发 器 1: 

InterfaceGigabitEthernet1/0/0.1 push-label 245 out-Interface 1/12 

这 里 245 为 PW 标签 ，Ifl2 是 从 转发 器 1 到 转发 器 2 之 间 的 交换 网 接口 。 

这 样 从 转发 器 1 的 接口 GigabitEthernet1/0/0.1 进入 的 数据 会 先 压 入 PW 标签 245, 然 
后 PW 报 文 会 发 送 到 Ifl12。 上 节 已 经 介绍 ， 转 发 器 1 到 转发 器 2 的 交换 网 流 表 为 : 

If12 push-label 20 outgoing-interface POS2/0/0 

If12 是 一 个 交换 网 接口 , 这样 转发 器 会 向 PW 报 文 压 入 隧道 标签 20, 形成 一 个 MPLS 
报 文 ， 如 图 2-19 所 示 。 





图 2-19 PW 报 文 封装 


然后 转发 器 会 把 这 个 MPLS 报 文 向 接口 POS2/0/0 发 送 ， 最 后 报 文 进入 转发 器 2， 转 
发 器 2 也 会 根据 控制 器 下 发 的 流 表 ， 把 报 文 的 隧道 头 和 PW 头 解 封装 ， 然 后 发 送 到 出 接 
口 GigabitEthernet1/0/0.1 。 

这 样 ， 就 完成 了 整个 PW 专线 业务 。 

通过 上 面 的 实现 过 程 介绍 ，SDN 用 控制 器 内 的 软件 程序 (交换 网 计算 应 用 程序 ) 替 
代 了 LDP 信 令 ， 使 得 SDN 网 络 中 去 除了 MPLS LDP 隧道 信 令 。SDN 用 控制 器 内 的 软件 
程序 (L2VPN 业务 应 用 程序 ) 替代 了 Remote LDP 业务 信 令 ， 使 得 SDN 网 络 中 去 除了 PW 
的 Remote LDP 信 令 ， 达 到 了 简化 网 络 的 目的 。 而 且 未 来 如 果 对 L2VPN 业务 有 需求 ， 只 
要 在 控制 器 上 调整 L2VPN 的 控制 程序 就 可 以 ， 不 需要 像 原 来 一 样 经 历 升级 设备 、 更 新 标准 等 
繁琐 的 过 程 。 

同样 道理 ， 在 实现 L3VPN 业务 时 ， 传 统 分 布 式 网 络 内 部 的 MBGP 业务 信 令 就 不 需 
要 了 ; 对 于 组 播 ， 传 统 网 络 的 PIM 信 令 不 需要 了 ; 对 于 IPv6 网 络 ， 则 可 以 不 用 OSPFv3、 
ISIS6 等 协议 了 。 总 之 ， 通 过 SDN 网 络 架 构 ， 能 够 简化 网 络 ， 去 掉 很 多 原来 必须 通过 标 
准 实现 的 各 种 业务 信 令 。 同 时 也 能 够 通过 更 新 SDN 控制 器 上 的 控制 器 程序 来 支持 更 多 新 
业务 ， 达 到 网 络 业务 快速 创新 的 目的 。 


【本 章 小 结 】 


本 章 介 绍 了 SDN 网络 基本 工作 原理 ， 说 明了 SDN 网 络 架构 下 的 基本 分 层 ， 包 括 转 
发 展 、 控 制 层 、APP 层 ， 也 介绍 了 SDN 网 络 架构 下 的 三 个 主要 接口 : 控制 器 和 转发 器 
的 南 向 控制 接口 、 控 制 器 和 APP 的 北向 网 络 业务 接口 以 及 控制 器 和 其 他 外 部 网 络 的 东西 
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向 互通 接口 ， 同 时 详细 介绍 了 SDN 网 络 架构 下 各 层 的 基本 功能 分 配 和 接口 关系 。 

然后 介绍 SDN 网 络 架构 对 网 络 的 模型 抽象 为 内 部 交换 网 络 和 边缘 业务 接 入 节点 构 
成 。SDN 的 基本 工作 原理 是 : 

Q@ SDN 控制 器 和 转发 器 的 控制 连接 建立 过 程 。 

@ SDN 控制 器 收集 网 络 资源 和 拓扑 信息 。 

@) 控制 器 实现 内 部 交换 路 径 计 算 以 及 业务 路 由 的 学 习 和 路 由 生成 。 

@ SDN 的 转发 面 转发 数据 和 传统 的 转发 面 实现 一 样 的 功能 ， 可 以 保持 传统 网 络 转 
发 面 。 

@@ 网 络 状态 变化 时 ，SDN 控制 器 会 根据 新 的 状态 重新 计算 网 络 内 部 交换 路 由 和 业 
务 路 由 。 

最 后 介绍 了 L2VPN 业务 的 控制 器 实现 实例 ， 展 示 了 SDN 网 络 下 是 如 何 简化 网 络 ， 
提供 网 络 业务 快速 创新 能 力 的 。 
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SDN 是 对 网 络 架 构 的 一 次 重 构 ， 从 分 布 式 网 络 架 构 转 向 集中 式 控 制 网 络 架 构 。 集 中 
控制 的 SDN 网络 架构 使 得 网 络 的 可 编程 性 大 大 提高 ,从 而 提升 了 网 络 的 灵活 性 , 能 够 支 
持 业 务 快速 创新 。SDN 的 这 种 集中 控制 的 网 络 架 构 还 直接 地 消除 了 原来 网 络 中 的 很 多 业 
务 路 由 协议 ， 简 化 了 网 络 。 而 集中 控制 正 是 通过 在 网 络 中 增加 一 个 集中 的 SDN 控制 器 ， 
来 完成 对 网 络 控制 的 。 可 以 说 ，SDN 网 络 架 构 下 的 核心 部 件 是 SDN 控制 器 。 本 章 将 介 
绍 SDN 控制 器 的 实现 原理 。 





3.1 控制 器 需求 


3.1.1 SDN 控制 器 控制 网 络 需求 


SDN 通过 集中 的 控制 器 对 网 络 实现 集中 控制 , 把 网 络 划 分 为 网 络 内 部 的 交换 路 径 和 
网 络 边缘 接 入 业务 两 个 核心 功能 〈 见 第 2 章 网 络 抽象 模型 )。SDN 集中 控制 的 目的 是 把 
网 络 的 这 两 个 核心 功能 都 集中 在 控制 器 计算 ， 来 达成 网 络 最 大 的 灵活 可 调整 性 。 因 为 把 
越 多 的 功能 集中 到 控制 器 ， 这 些 集中 的 功能 就 越 容易 灵活 修改 。 如 果 某 些 功 能 不 集中 到 
控制 器 ， 那 么 这 些 功 能 就 很 难 修改 。 

在 广域网 中 部 署 SDN 控制 器 时 ， 单 个 SDN 控制 器 所 面临 的 网 络 规模 根据 场景 不 同 
而 不 同 。 

在 IPRAN 的 移动 接 入 场景 ， 在 一 个 城市 ， 目 前 的 规模 已 经 达到 2 万 台 设 备 ， 未 来 
可 能 会 继续 增加 ， 达 到 10 万 台 量 级 。 这 种 接 入 网 通常 是 汇聚 模型 ， 管 理 设备 数量 众多 ， 
但 是 需要 建立 的 路 径 和 路 由 数目 相对 不 会 太 多 。 比 如 ， 如 果 说 2 万 台 设 备 中 有 800 台 设 
备 是 汇聚 设备 ， 其 他 19200 台 为 接 入 设备 ， 那 么 接 入 设备 通常 只 要 双 归 属 到 2 台 汇 聚 设 
备 ， 与 每 台 汇 聚 建立 主 备 保护 路 径 ， 一 共 相 当 于 4 条 业务 路 径 ， 总 体 上 在 接 入 部 分 相当 
于 共有 76800 条 路 径 ， 路 由 数目 也 是 相同 量 级 的 。 而 汇聚 设备 之 间 的 业务 路 径 数量 即使 
全 连接 总 体 也 只 为 32 万 左右 。 

对 于 目前 典型 的 城 域 网 和 骨干 场景 ， 设 备 规 模 从 几 百 台 到 2000 台 。 在 骨干 网 和 城 
域 网 的 组 网 中 ， 主 要 压力 并 不 是 网 络 内 部 交换 路 径 的 计算 ， 而 是 边缘 接 入 业务 路 由 的 计 
算 。 如 果 把 边缘 接 入 业务 都 集中 到 控制 器 计算 ， 通常 的 一 个 边缘 接 入 业务 设备 要 建立 几 
十 个 BGP 邻居 来 学 习 外 部 网 络 业 务 路 由 (客户 VPN 路 由 或 者 Internet 路 由 )， 每 个 BGP 
邻居 要 学 习 数 以 万 计 的 BGP 路 由 ， 这 样 整体 上 BGP 邻居 数量 多 达 几 万 个 ， 路 由 数量 则 
可 能 达到 几 千 万 甚至 几 亿 。 这 些 BGP 的 路 由 处 理 都 会 集中 到 控制 器 上 进行 计算 ， 这 样 就 
要 求 控制 器 能 够 处 理 这 样 规模 的 协议 邻居 和 业务 路 由 。 

在 数据 中 心 解决 方案 场景 ， 采 用 OVERLAY 方式 完成 网 络 虚拟 化 功能 。 这 种 网 络 虚 
拟 化 是 在 数据 中 心服 务 器 上 直接 启动 一 个 软件 交换 机 〈 比 如 OVS，Open vSwitch 等 )， 
然后 使 用 VXLAN 技术 , 直接 构建 海量 租户 的 虚拟 二 层 网 络 。 这 种 组 网 情况 下 , 通过 SDN 
控制 器 来 完成 虚拟 网 络 的 自动 化 建立 和 控制 ,要 求 SDN 控制 器 能 够 控制 数据 中 心 内 的 软 
件 交 换 机 的 数量 和 服务 器 的 数量 是 一 样 的 。 比 如 一 个 大 规模 数据 中 心 ， 目 前 可 能 达到 10 
万 台 服 务 器 ， 相 当 于 这 个 SDN 控制 器 要 管控 10 万 台 软 件 交 换 机 。 而 未 来 超大 规模 数据 
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中 心 可 能 向 百 万 台 级 发 展 ，SDN 控制 器 面临 更 大 的 规模 挑战 。 这 种 场景 下 ， 目 前 每 台 服 
务 器 通常 可 以 虚拟 化 为 12 一 24 个 虚拟 机 (目前 Intel 服务 器 CPU 可 以 达到 12 核心 24 线 
程 ， 未 来 可 能 支持 更 多 核心 ， 就 能 够 虚拟 化 出 更 多 虚拟 机 )， 如 果 按 照 10 万 台 服 务 器 计 
算 ， 需 要 控制 器 计算 的 路 由 数量 最 小 是 480 万 条 路 由 (在 每 两 台 VM 互相 通信 ， 不 和 其 
他 VM 通信 的 情况 下 ， 相 当 于 给 每 个 VM 安装 了 一 条 路 由 来 寻 址 到 对 方 ， 安 装 另 外 一 条 路 
由 寻 址 自己 ), 最 大 规模 可 以 达到 240 万 X10 万 条 路 由 (此 时 是 240 万 VM 互相 之 间 都 要 通 
信 , 每 个 OVS 上 都 有 240 万 条 路 由 )。 当 然 ， 实际 场景 的 路 由 数量 可 能 没有 如 此 多 , 但 是 通 
常 也 会 达到 上 千 万 条 。 这 种 OVERLAY 解决 方案 , 通常 为 了 避免 在 OVS 所 在 服务 器 发 送 广 
播报 文 , ARP 协议 报 文 会 发 送 到 控制 器 完成 处 理 , 由 于 ARP 报 文 是 定期 老化 、 定 期 重 发 的 ， 
所 以 每 秒 产生 的 ARP 的 总 报 文 数量 大 概 是 虚拟 机 数量 的 30%。 这 是 一 个 网 络 统计 经 验 数 据 。 
在 240 万 个 虚拟 机 场景 下 ， 相 当 于 每 秒 可 能 产生 72 万 个 ARP 报 文 需要 控制 器 处 理 。 

总 体 来 说 ，SDN 控制 器 需要 支持 大 规模 的 网 络 设备 控制 ， 需 要 支持 海量 的 外 部 协议 
连接 处 理 ， 需 要 能 够 支持 海量 的 网 络 内 部 交换 路 径 的 计算 和 生成 ， 需 要 能 够 支持 海量 的 
业务 路 由 处 理 。 


3.1.2 ”SDN 控制 器 的 可 靠 性 需求 


SDN 控制 器 的 可 靠 性 至 关 重 要 。 由 于 SDN 网 络 架 构 是 集中 控制 的 ， 一旦 这 个 控制 
器 失效 ， 当 网 络 状态 发 生变 化 时 , 没有 了 SDN 控制 器 为 网 络 进行 实时 控制 、 重 新 计算 网 
络 内 部 交换 路 径 和 边界 接 入 业务 的 业务 路 由 的 处 理 , 会 导致 用 户 业 务 受 损 。 尽管 SDN 网 
络 仍然 可 以 预先 为 网 络 建立 主 备 FRR 保护 路 径 , 可 以 在 一 定 程度 上 缓解 控制 器 失效 带 来 
的 影响 。 比 如 ， 当 SDN 控制 器 失效 后 ， 网 络 出 现 单 点 故障 ， 此 时 FRR 保护 路 径 会 生效 ， 
网 络 转发 业务 不 会 受到 损失 。 但 当 网 络 出 现 同时 多 点 故障 时 ， 如 果 没 有 控制 器 的 介入 ， 
网 络 的 业务 很 可 能 会 受到 损失 。 而 在 传统 的 分 布 式 网 络 ， 运 行 在 每 台 设 备 上 的 分 布 式 控 
制 系统 会 自动 同步 网 络 状 态 ， 重 新 进行 网 络 收敛 ， 来 达到 网 络 的 最 大 可 用 性 。 比 起 SDN 
网 络 来 说 ， 传 统 分 布 式 网 络 可 靠 性 要 高 。 

SDN 控制 器 本 身 的 可 靠 性 问题 ， 需 要 考虑 的 故障 模式 主要 包括 运行 SDN 控制 器 的 
服务 器 故障 、SDN 控制 器 本 身 的 软件 故障 。SDN 控制 器 需要 在 服务 器 故障 和 软件 故障 时 ， 
系统 仍然 能 够 提供 服务 ， 并 且 需 要 做 到 故障 透明 ， 使 其 他 周边 邻居 和 转发 器 不 感知 到 
SDN 控制 器 的 故障 。 通 常 解 决 可 靠 性 问题 是 通过 宛 余 备份 来 实现 ， 对 故障 部 件 进 行 元 余 
备份 ， 使 系统 不 间断 提供 服务 。 


3.1.3 ”SDN 控制 器 的 实时 性 需求 


在 网 络 状态 变化 时 ， 传 统 分 布 式 网 络 是 通过 全 网 实时 同步 状态 和 实时 计算 网 络 路 由 
机 制 的 , 通常 能 做 到 秒 级 甚至 毫秒 级 路 由 收敛 。 在 SDN 网 络 架 构 下 ,业务 的 需求 仍然 是 
希望 当 网 络 状态 变化 时 ， 网 络 能 够 快速 收敛 。 这 里 的 快速 就 是 越 快 越 好 ， 最 好 比 传统 分 
布 式 网 络 还 快 。 即 使 不 能 超过 传统 分 布 式 网 络 的 收敛 性 能 ， 也 应 该 在 同样 量 级 ， 即 秒 级 
或 毫秒 级 , 所 以 SDN 控制 器 对 网 络 的 控制 是 一 种 实时 控制 , 能 够 根据 网 络 状 态 变 化 实时 
对 网 络 的 内 部 交换 路 径 进行 重新 计算 , 对 网 络 边缘 接 入 业务 的 路 由 进行 重新 计算 和 生成 ， 
并 下 发 到 转发 器 。 即 能 够 对 网 络 状态 变化 予以 实时 响应 ， 使 得 网 络 系统 始终 处 在 提供 正 
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常服 务 的 状态 。 
3.1.4 ”SDN 控制 器 的 开放 性 需求 


SDN 控制 器 应 该 是 开放 的 系统 。SDN 控制 器 开放 可 编程 的 特性 ， 带 来 SDN 最 重要 
的 价值 一 一 业务 快速 创新 。 这 样 ，SDN 控制 器 必须 开放 北向 编程 接口 ， 使 得 第 三 方 可 以 
基于 这 些 编程 接口 来 快速 开发 一 些 新 业务 应 用 。 

SDN 还 需要 开放 南 向 接口 , 使 得 第 三 方 转发 器 厂家 能 够 利用 这 些 接口 编写 自己 的 设 
备 驱 动 程序 对 接 控 制 器 ， 这 样 解决 了 运营 商 最 担心 的 厂家 锁定 问题 ， 如 果 购 买 了 一 个 厂 
家 的 控制 器 ， 就 只 能 购买 该 厂家 的 转发 器 。 开 放 的 控制 器 开放 了 南 向 接口 之 后 ， 各 个 转 
发 器 设备 厂家 都 可 以 自行 开发 驱动 程序 ， 接 入 控制 器 网 络 。 

开放 的 含义 是 第 三 方 能 够 在 控制 器 提供 商 不 参与 的 情况 下 ， 完 成 控制 器 上 的 新 业务 
开发 ， 以 及 第 三 方 转发 器 和 控制 器 的 对 接 。 


3.1.5 ”SDN 控制 器 现 网 迁移 需求 


由 于 网 络 上 已 经 存在 海量 的 传统 网 络 设备 ,SDN 网 络 部 署 需要 考虑 如 何 从 现 网 平滑 
地 迁移 演进 到 SDN 网 络 。 

迁移 演进 方式 有 多 种 ， 其 中 一 种 是 ，SDN 网 络 的 部 署 可 能 先 在 某 些 局 部 网 络 部 署 ， 
而 这 个 单独 部 署 的 SDN 孤岛 网 络 需 要 和 传统 的 分 布 式 网 络 互通 ， 这 样 就 需要 SDN 控制 
器 能 够 支持 传统 的 一 些 网 络 业 务 协 议 ， 比 如 BGP 进行 互通 。 在 控制 器 控制 的 网 络 内 部 可 
以 消除 原来 的 很 多 协议 ， 比 如 ，MPLS 协议 、 组 播 协议 、IPv6 协议 都 可 以 从 网 络 内 部 消 
除 ， 但 是 为 了 解决 SDN 网 络 和 其 他 网 络 的 对 接 ，SDN 控制 器 需要 实现 传统 的 网 络 业务 
协议 。 这 种 迁移 演进 方式 如 图 3-1 所 示 : 先 部 署 SDN 孤岛 网 络 ， 这 个 孤岛 网 络 可 以 和 现 
存 的 网 络 互 操作 ， 一 起 完成 业务 。 









SDN 控制 器 故 \ 


传统 分 布 式 网 络 






图 3-1 SDN 孤岛 网 络 和 传统 网 络 互 通 





另外 一 种 迁移 演进 方式 是 又 加 控制 的 混合 组 SDN 控制 器 4 
网 方式 。 在 这 种 网 络 架构 下 ， 保 持 了 原来 的 分 布 式 
控制 网 络 ， 并 春 加 一 个 SDN 控制 器 ， 这 个 SDN 控 
制 器 也 会 对 网 络 进行 控制 。 这 样 相 当 于 网 络 包含 了 
两 个 控制 系统 : 一 个 是 集中 的 SDN 控制 器 , 一 个 是 
传统 的 分 布 式 控制 系统 ， 如 图 3-2 所 示 。 

这 两 种 迁移 演进 方式 是 传统 网 络 向 SDN 网 络 图 3》 荐 加 SDN 各 仙 中 的 混合 控制 
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演进 的 最 基本 方法 ， 在 SDN 控制 器 设计 中 需要 充分 考虑 迁移 演进 需求 。 
3.1.6 ”需求 总 结 


对 上 面 的 需求 分 析 汇 总 ， 可 以 得 出 : 

Q 控制 器 能 够 支持 大 规模 网 络 控制 、 海 量 的 网 络 交换 路 径 的 计算 、 海 量 的 边缘 接 
入 业务 路 由 处 理 。 

@ 需要 控制 器 考虑 可 靠 性 、 实 时 性 、 开 放 性 。 

@ 需要 控制 器 支持 现 网 向 SDN 网 络 迁 移 。 

针对 这 些 需 求 ， 本 章 后 面 提出 控制 器 的 一 个 参考 实现 架构 。 这 个 参考 实现 架构 是 一 
个 逻辑 架构 ， 并 不 代表 业界 都 按照 这 样 的 逻辑 架构 来 实现 ， 但 至 少 从 一 个 侧面 可 以 了 解 
SDN 控制 器 架构 应 该 考虑 的 方方面面 。 


3.2 控制 器 的 架构 


3.2.1 网络 操作 系统 


1。， 网 络 操 作 系统 的 概念 

SDN 网 络 希 望 把 网 络 软 件 化 ， 使 得 操作 网 络 的 时 候 就 如 同 操作 一 个 软件 系统 ， 当 需 
要 改变 网 络 的 行为 ， 只 需要 修改 这 个 软件 ， 如 果 需 要 实现 什么 新 业务 ， 只 要 修改 或 者 升 
级 这 个 软件 ， 就 可 以 达到 目的 。 通 常 的 大 型 软件 系统 都 需要 一 个 平台 ， 比 如 ， 个 人 计算 
机 的 操作 系统 Windows 和 Linux 都 是 一 个 平台 ， 人 们 可 以 在 这 些 平 台 上 任意 编写 他 们 希 
望 的 应 用 程序 ， 在 编写 和 运行 这 些 应 用 程序 时 ， 都 需要 使 用 平台 提供 的 各 种 服务 。 而 手 
机 操作 系统 Android 也 是 一 个 平台 ， 人 们 可 以 基于 这 个 平台 编写 各 种 移动 应 用 程序 ， 这 
些 应 用 程序 都 使 用 了 平台 提供 的 服务 。 人 们 为 什么 需要 一 个 平台 或 者 说 操作 系统 呢 ? 因 
为 这 个 平台 对 底层 所 管理 的 资源 进行 了 抽象 ， 屏 蔽 了 底层 的 详细 物理 细节 和 资源 细节 信 
上 县， 对 上 提供 了 统一 的 抽象 编程 接口 ， 这 样 ， 各 种 应 用 程序 只 需要 调用 操作 系统 提供 的 
这 些 抽象 的 编程 接口 ， 而 不 用 关心 各 种 物理 资源 的 细节 ， 也 不 用 关心 各 个 厂家 实现 的 各 
种 差异 ， 结 果 大 大 简化 了 应 用 程序 的 开发 ， 并 且 这 样 的 程序 由 于 平台 或 者 操作 系统 在 中 
间 的 作用 ， 使 得 它们 可 以 跨 硬件 平台 运行 。 传 统 的 个 人 计算 机 操作 系统 的 主要 功能 包括 
进程 管理 、 调 度 管理 、 通 信 管理 、 内 存 管 理 、 文 件 管理 、 外 设 管理 、 中 断 管理 等 ， 而 通 
常 的 操作 系统 的 主要 功能 是 负责 资源 管理 ， 对 系统 运行 的 进程 资源 、CPU 资源 、 内 存 资 
源 、 文 件 资源 、 外 设 硬件 资源 、 中 断 资源 等 进行 管理 ， 为 运行 在 上 面 的 应 用 程序 提供 各 
种 系统 调用 来 分 配 和 协调 这 些 资源 。 这 些 资源 管理 功能 模块 主要 是 管理 系统 固有 的 各 种 
资源 和 数据 ， 而 上 面 的 应 用 程序 则 会 结合 用 户 输入 的 数据 和 资源 、 策 略 等 ， 调 用 操作 
系统 提供 相关 资源 和 服务 ， 完 成 用 户 希 望 这 个 程序 完成 的 功能 。 这 样 ， 这 些 资 源 管 理 
功能 模块 也 会 管理 上 层 应 用 程序 对 底层 资源 的 操作 数据 。 传 统 的 操作 系统 的 架构 如 图 3-3 
所 示 。 

控制 器 是 一 个 大 型 控制 软件 系统 ， 也 需要 一 个 控制 器 平台 。 这 个 平台 也 称 为 网 络 操 
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作 系 统 (Network OS 或 者 简写 为 NOS，NetOS )， 主 要 负责 网 络 资源 管理 。 而 网 络 操作 
系统 上 面 运行 的 网 络 业务 应 用 程序 会 调用 其 提供 的 资源 接口 来 申请 资源 ， 并 结合 用 户 的 
输入 数据 完成 网 络 业务 处 理 。 图 3-4 所 示 控 制 器 中 为 网 络 操作 系统 和 网 络 业 务 应 用 程序 
的 关系 。 


用 户 输入 数据 


应 用 程序 
CD ES 
调用 系统 资源 


计算 机 操作 系统 


通信 || 中 断 || 进程 || 内 存 || 文件 || 外 设 

调度 || 资源 || 管理 || 管理 || 管理 || 管理 

硬件 
DE 


图 3-3 ”传统 的 计算 机 操作 系统 和 应 用 程序 





用 户 输入 数据 


网 络 业务 应 用 程序 


调用 网 络 资源 Ee 


网 络 操作 系统 
拓扑 资源 
转发 器 1 || 转发 器 2 | | 转发 器 3 
资源 资源 资源 


转发 器 


图 3-4 控制 器 中 网 络 操作 系统 和 网 络 业务 应 用 程序 的 关系 


图 中 所 示 是 网 络 操作 系统 的 位 置 和 基本 功能 。 网 络 操作 系统 主要 负责 网 络 资源 管 
理 ， 屏 蔽 底层 转发 器 硬件 的 差异 ， 对 网 络 业务 应 用 程序 提供 统一 的 抽象 的 API。 这 样 ， 
网 络 业务 应 用 程序 就 不 需要 关心 具体 的 转发 器 硬件 细节 (比如 转发 器 是 分 布 式 还 是 集中 
式 ， 是 单 框 还 是 多 框 ， 是 软件 转发 器 还 是 硬件 转发 器 )， 不 需要 关心 转发 器 的 厂家 信息 ， 
也 不 需要 关心 到 底 如 何 和 转发 器 打交道 。 网 络 业 务 应 用 程序 在 实现 其 业务 逻辑 时 ， 都 是 
使 用 网 络 操作 系统 提供 的 一 套 抽象 接口 ， 并 结合 用 户 的 输入 数据 来 完成 业务 处 理 。 

2. 传统 网 络 的 软件 系统 

传统 的 分 布 式 网 络 有 软件 系统 ， 没 有 网 络 操作 系统 。 此 时 网 络 设备 的 软件 系统 构成 
如 图 3-5 所 示 。 
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用 户 输入 数据 用 户 输入 数据 用 户 输入 数据 

厂家 1 设备 控制 程序 厂家 2 设备 控制 程序 厂家 3 设备 控制 程序 
调用 设备 本 地 资源 调用 设备 本 地 资源 调用 设备 本 地 资源 
厂家 1 网 络 设备 OS 


厂家 2 网 络 设备 OS 
厂家 1 网 络 设备 硬件 厂家 2 网 络 设备 硬件 














厂家 3 网 络 设备 OS 
厂家 3 网 络 设备 硬件 


图 3-5 传统 网 络 的 分 布 式 软件 系统 





在 传统 网 络 的 软件 系统 中 ， 是 由 一 个 个 独立 的 厂家 软件 系统 构成 的 。 每 个 厂家 的 网 
络 设备 软件 系统 包含 两 个 部 分 : 网 络 设备 OS( 注 意 网 络 OS 与 网 络 设备 OS 的 区 别 。 网 
络 OS 是 一 个 网 络 的 操作 系统 ， 网 络 设备 OS 是 网 络 中 的 具体 的 一 台 网 络 设备 的 OS， 要 
注意 区 分 这 两 个 概念 ) 和 网 络 设备 控制 程序 。 每 个 厂家 的 网 络 设备 由 软件 系统 和 硬件 构 
成 ， 其 中 硬件 是 各 个 厂家 自己 设计 实现 的 ， 没 有 标准 可 言 ， 不 像 个 人 计算 机 领域 有 兼容 
机 标准 。 网 络 设备 OS， 是 各 个 厂家 设备 内 的 操作 系统 ， 是 为 了 屏蔽 自己 厂家 的 设备 硬 
件 的 差异 ， 为 自己 的 设备 控制 程序 提供 编程 接口 ， 在 功能 上 实现 了 各 种 硬件 资源 管理 和 
通信 资源 管理 。 网 络 设 备 控制 程序 则 是 运行 在 网 络 设备 OS 之 上 的 一 个 网 络 控制 程序 ， 
比如 各 种 传统 的 路 由 协议 BGP、OSPF 等 以 及 设备 管理 协议 NETCONF、CLI、SNMP 等 。 
事实 上 ， 各 个 三 家 的 网 络 设备 程序 和 网 络 设 备 OS 大 部 分 是 捆绑 在 一 起 ， 不 可 切 分 的 。 
这 一 点 并 不 像 一 台 个 人 计算 机 的 操作 系统 和 应 用 程序 之 间 的 关系 ， 个 人 计算 机 上 的 应 用 
程序 能 够 在 其 操作 系统 上 进行 灵活 安装 、 加 载 、 秃 载 。 当 前 各 个 厂家 几乎 都 不 具备 这 个 
能 力 ， 其 背后 原因 可 以 理解 为 : 因为 整个 网 络 设备 产品 都 是 一 个 厂家 交付 ， 要 升级 修改 
设备 软件 都 是 连同 设备 OS 和 设备 控制 程序 整 包 升级 的 。 

各 个 厂家 的 网 络 设备 OS 不 相同 ， 不 能 互 操作 。 也 就 是 说 ， 厂 家 1 的 网 络 设备 OS 不 
能 运行 在 厂家 2 的 网 络 设备 硬件 上 。 反 之 亦 然 。 而 厂家 设备 控制 程序 是 基于 厂家 自己 的 设 
备 OS 开发 的 ， 同 理 ， 厂 家 1 的 设备 控制 程序 不 能 运行 在 厂家 2 的 设备 OS 上 。 反 之 也 一 
样 。 这 种 模式 叫 作 垂直 整合 模式 ， 一 个 产品 从 硬件 到 软件 全 部 由 一 个 三 家 自己 完成 。 这 种 
模式 下 ， 各 个 厂家 的 硬件 和 软件 不 能 互相 替换 。 尽 管 这 些 网 络 设备 其 实 实现 的 是 相同 的 功 
能 , 但 是 内 部 实现 架构 各 不 相同 。 为 了 交互 信息 , 都 是 在 设备 控制 程序 之 间 进 行 协议 交互 。 
这 些 协议 都 需要 一 个 标准 组 织 来 定义 互通 标准 。 这 部 分 交互 信息 如 图 3-5 中 的 虚线 部 分 。 
这 些 交 互 报 文 的 实际 路 径 是 网 络 设备 控制 程序 通过 网 络 设备 OS 的 网 络 协议 栈 报 文 来 收发 
报 文 的 ， 网 络 设备 OS 的 协议 栈 则 是 调用 网 络 设备 的 网 络 接口 来 完成 报 文 收发 的 。 也 就 是 
说 , 通信 服务 也 是 网 络 设备 OS 提供 的 基本 服务 。 网 络 设备 之 间 的 通信 流程 如 图 3-6 所 示 。 

通过 这 些 介绍 ， 我 们 会 发 现 ， 传 统 的 网 络 系统 中 存在 着 网 络 软件 系统 ， 这 个 网 络 软 
件 系统 是 由 一 个 个 独立 的 软件 系统 构成 的 。 这 些 软件 系统 之 间 通 过 标准 的 通信 协议 进行 
互通 ， 整 个 网 络 并 没有 一 个 统一 抽象 的 可 编程 接口 开放 出 来 。 所 以 ， 传 统 的 网 络 系统 中 
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并 没有 网 络 操作 系统 ， 可 编程 能 力 很 差 。 当 需要 在 网 络 中 增加 新 业务 时 ， 必 须 先 定义 标 
准 ， 然 后 各 自 开 发 软件 ， 升 级 设备 软件 才能 完成 新 业务 部 署 ， 这 导致 一 个 新 业务 在 网 络 


中 部 署 周 期 需要 数 年 之 久 。 
厂家 1 设备 控制 程序 厂家 2 设备 控制 程序 
调用 设备 OS 协议 栈 服务 调用 设备 OS 协议 栈 服 务 
厂家 2 网 络 设备 OS 


厂家 1 网 络 设备 OS 
厂家 1 网 络 设备 硬件 厂家 2 网 络 设备 硬件 


图 3-6 设备 之 间 的 通信 流程 



















3. 广义 网 络 操作 系统 

前 面 讨论 了 SDN 网 络 下 的 网 络 操作 系统 ， 网 络 操作 系统 实现 了 网 络 资源 管理 ， 这 
些 资 源 包括 转发 设备 对 外 部 非 SDN 网 络 的 通信 资源 管理 ， 比 如 SDN 网 络 边界 为 了 和 传 
统 网 络 互 通 的 协议 连接 和 报 文 ， 需 要 通过 网 络 操作 系统 进行 管理 。 也 包括 转发 器 的 抽象 
转发 资源 管理 ， 比 如 各 种 ID 资源 、 标 签 资源 、 光 的 波长 资源 等 。 网 络 操作 系统 也 管理 
网 络 的 拓扑 资源 等 信息 。 网 络 操作 系统 对 上 面 的 网 络 业务 控制 程序 提供 了 统一 的 网 络 编 
程 接口 ， 使 得 网 络 业务 应 用 程序 〈 或 者 说 网 络 业 务 控制 应 用 程序 ) 不 需要 关心 具体 的 转 
发 器 的 硬件 差异 、 厂 家 差异 。 广 义 网 络 操作 系统 的 组 成 如 图 3-7 所 示 。 


网 络 资源 管理 〈 网 络 层 资源 管理 
和 网 元 抽象 资源 管理 ) 
厂家 1 转发 器 | | 厂家 2 转发 器 | | 厂家 3 转发 器 | 驱动 程序 
驱动 程序 驱动 程序 驱动 程序 中 心 侧 


控制 器 和 转发 器 之 间 的 接口 


全 可 驱动 程序 
器 软件 系统 | | 器 软件 系统 | | 器 软件 系统 主机 侧 







网 络 业 务 应 用 程序 









网 络 操作 系统 


部 登 洲 








营 洲 痉 闹 装 习 站 





图 3-7 广义 网 络 操作 系统 


在 图 3-7 中 ， 首 先 ， 广 义 网 络 操作 系统 包含 转发 器 软件 系统 和 控制 器 内 部 的 网 络 操 
作 系 统 。 其 中 转发 器 软件 系统 是 运行 在 转发 器 上 的 软件 系统 , 通常 包括 转发 器 的 设备 OS 
和 转发 器 上 的 各 种 本 地 程序 (比如 和 控制 器 的 连接 协议 )。 这 个 转发 器 内 的 软件 系统 可 以 
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认为 是 广义 网 络 操作 系统 的 驱动 程序 的 主机 侧 软 件 ， 因 为 它 〈 转 发 器 驱动 程序 主机 侧 ) 
运行 在 转发 器 本 地 的 硬件 系统 里 面 。 控 制 器 内 的 网 络 操作 系统 部 分 又 分 为 两 个 部 分 : 一 
个 部 分 是 网 络 资源 管理 模块 ， 该 模块 管理 的 网 络 资源 是 抽象 的 网 络 资源 和 抽象 的 转发 器 
网 元 资源 ， 男 外 一 个 部 分 是 转发 器 设备 的 驱动 程序 中 心 侧 部 分 (运行 在 控制 器 内 的 转发 
器 驱动 程序 称 为 转发 器 驱动 程序 中 心 侧 )。 这 些 驱 动 程序 中 心 侧 部 分 会 将 网 络 资源 管理 系 
统 的 抽象 资源 管理 接口 转换 为 转发 器 厂家 自己 具体 的 转发 器 资源 管理 接口 (其 功能 也 就 
是 常 说 的 从 抽象 网 元 资源 模型 到 具体 厂家 转发 器 模型 之 间 的 转换 ), 并 通过 一 个 接口 协议 
和 转发 器 进行 对 接 。 这 个 接口 协议 可 以 使 用 通用 的 Netconf、BGP、PCEP、TL1、QX 
等 协议 ， 也 可 以 采用 厂家 私有 的 协议 进行 驱动 程序 中 心 侧 到 位 于 转发 器 的 驱动 程序 主机 
侧 的 通信 。 

图 3-7 所 示 的 广义 网 络 操作 系统 是 把 SDN 所 控制 的 一 个 网 络 看 成 一 台 物 理 硬件 设 
备 , 这 个 物理 硬件 设备 是 由 很 多 转发 器 硬件 以 及 连接 这 些 转发 器 人 硬件 的 物理 线路 组 成 的 。 
而 广义 网 络 操作 系统 是 管理 这 个 物理 硬件 设备 的 一 个 操作 系统 。 这 一 点 就 如 同 传统 的 
计算 机 操作 系统 一 样 ， 计 算 机 操作 系统 管理 很 多 物理 硬件 ， 包 括 CPU、 内 存 、 总 线 、 
磁盘 等 。 

把 广义 网 络 操作 系统 的 图 示 重 新 展示 一 下 ， 按 照 交 付 主体 不 同 可 以 得 到 如 图 3-8 所 
示 的 结果 。 







网 络 业务 应 用 程序 


网 络 资源 管理 系统 

转发 器 驱动 
厂家 1 转发 器 | | 厂家 2 转发 器 | | 厂家 3 转发 器 | 驱动 程序 
驱动 程序 驱动 程序 驱动 程序 中 心 侧 

厂家 1 转发 器 | | 厂家 2 转发 器 | | 厂家 3 转发 器 | 驱动 程序 

软件 系统 软件 系统 软件 系统 主机 侧 


厂家 1 转 厂家 2 转 厂家 3 转 
图 3-8 广义 网 络 操作 系统 和 广义 控制 器 


从 图 3-8 中 可 以 更 加 清晰 地 看 出 ， 广 义 网 络 操作 系统 包括 两 大 部 分 :网 络 操作 系统 
和 转发 器 驱动 。 而 广义 控制 器 对 应 广义 网 络 操作 系统 ， 是 在 广义 网 络 操作 系统 基础 上 ， 
增加 了 网 络 业务 应 用 程序 构成 的 。 在 这 种 SDN 网 络 架构 下 , 整个 网 络 的 软件 系统 是 由 广 
义 网 络 操作 系统 和 上 面 的 网 络 业 务 应 用 程序 组 成 的 ， 这 两 部 分 一 起 也 称 为 广义 控制 器 。 
而 整个 SDN 网 络 系统 则 是 由 转发 器 硬件 和 广义 控制 器 构成 的 。 

这 里 按 交付 主体 的 意思 是 ,通常 产业 分 工 模式 是 ， 转 发 器 硬件 厂家 提供 转发 器 硬 
件 、 转 发 器 驱动 程序 主机 侧 、 转 发 器 驱动 程序 中 心 人 出 ， 网 络 操作 系统 三 家 提供 网 络 操 


、 


网 络 操作 系统 





信人 - 


昔 址 洲 冯 下 





瘤 测 弃 注 并 司 关 下 






转发 器 硬件 
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作 系 统 部 分 ，, 控制 器 交付 厂家 提供 网 络 业 务 应 用 程序 ， 最 后 可 以 由 集成 商 完 成 整体 集 
成 交付 。 

这 里 还 要 强调 一 个 概念 ， 用 户 购 买 广义 网 络 操作 系统 本 身 ， 并 不 能 直接 进行 网 络 的 
运营 ， 因 为 广义 网 络 操作 系统 和 网 络 操作 系统 都 是 网 络 资源 管理 系统 ， 它 仅仅 提供 网 络 
资源 管理 功能 ， 并 不 能 为 用 户 提供 网 络 业 务 。 只 有 用 户 购买 了 网 络 业务 应 用 程序 后 ， 才 
可 以 利用 这 些 网 络 业 务 应 用 程序 来 进行 网 络 运营 。 

4. 狭义 网 络 操 作 系 统 

这 里 的 狭义 网 络 操 作 系 统 是 和 广义 网 络 操 作 系 统 对 应 的 , 下 文 也 称 之 为 网 络 操 作 
系统 。 

在 实际 讨论 SDN 控制 器 和 网 络 操作 系统 的 关系 时 ， 通 常 更 应 该 从 网 络 管理 员 视 角 
来 看 整个 SDN 网 络 系统 。 网 络 管理 员 并 不 关心 哪个 厂家 交付 整个 网 络 系统 的 哪个 部 分 ， 
而 关心 网 络 由 哪些 实体 构成 ， 这 些 实体 之 间 是 如 何 交互 的 。 所 以 对 于 网 络 管理 员 更 加 容 
易 理解 的 概念 是 ， 网 络 是 由 控制 器 和 转发 器 构成 的 ， 而 控制 器 和 转发 器 之 间 是 通过 控制 
协议 通道 进行 通信 的 ， 网 络 管理 员 还 关心 一 个 用 户 报 文 是 如 何 穿 过 转发 网 络 的 ， 关 心 用 
户 报 文 在 网 络 内 部 的 转发 路 径 。 这 样 从 网 络 管理 视角 上 看 待 这 个 SDN 网 络 应 该 按照 
图 3-9 所 示 来 展示 系统 。 





网 络 业 务 应 用 程序 


L3VPN L2VPN 


网 络 资源 管理 (网 络 层 资源 管理 和 网 元 抽象 资源 
管理 ) 器 
厂家 1 转发 器 | | 厂家 2 转发 器 | | 厂家 3 转发 器 | 全 
驱动 程序 驱动 程序 驱动 程序 。 | 归 动 程序 中 心 全 
接口 协议 接口 协议 BGP, | | 厂家 私有 接口 
Netconf，OF PCEP 协议 


控制 器 和 转发 右 之 间 的 接口 


网 络 操作 系统 


瘤 测 痉 贰 装 司 (X 冯 党 ) 





驱动 程序 主机 侧 





图 3-9 狭义 网 络 操作 系统 


在 图 3-9 中 , 把 SDN 网 络 清楚 地 分 为 控制 器 部 分 和 转发 器 部 分 ,控制 器 和 转发 器 之 
间 通 过 接口 协议 进行 互通 。 这 些 接口 协议 主要 负责 几 个 方面 的 数据 交互 功能 ， 包 括 从 转 
发 器 收集 转发 器 资源 信息 、 转 发 器 的 协议 报 文 、 控 制 器 下 发 的 配置 信息 、 控 制 器 下 发 的 
转发 表 信息 。 

转发 器 由 厂家 独立 交付 ， 其 系统 内 部 包括 硬件 、 转 发 器 OS 和 接口 协议 。 而 控制 器 
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则 分 为 两 部 分 ， 一 部 分 是 狭义 网 络 操作 系统 ， 另 外 一 部 分 是 网 络 业 务 应 用 程序 。 这 两 部 
分 可 以 由 一 个 厂家 提供 也 可 以 由 不 同 厂家 分 别提 供 ， 比 如 一 个 厂家 专门 提供 网 络 操作 系 
统 ， 其 他 很 多 厂家 提供 网 络 业 务 应 用 程序 ， 最 后 由 集成 厂家 提供 控制 器 集成 。 

网 络 操作 系统 的 功能 ， 除 了 网 络 资源 管理 系统 外 ， 还 包括 驱动 程序 和 接口 协议 层 。 
驱动 程序 是 各 个 厂家 开发 的 接口 转换 程序 。 接 口 协议 层 的 接口 协议 部 分 ， 范 围 上 属于 驱 
动 程序 的 一 部 分 , 但 是 网 络 操作 系统 厂家 通常 会 提供 很 多 标准 的 接口 协议 , 比如 Netconf、 
OpenFlow、BGP、PCEP 等 ， 而 厂家 也 可 以 自行 定制 自己 的 接口 协议 ， 这 个 接口 协议 主 
要 用 于 厂家 驱动 程序 和 自己 的 转发 器 对 接 ， 所 以 是 否 为 私有 协议 其 实 并 不 那么 重要 。 如 
果 转 发 器 厂家 希望 采用 标准 协议 互通 ， 则 要 求 转发 器 和 控制 器 之 间 的 协议 都 采用 同样 的 
标准 才能 进行 互通 。 

网 络 操作 系统 部 分 和 驱动 程序 之 间 需 要 定义 一 套 标准 的 接口 ， 这 样 才 能 使 得 各 个 厂 
家 按 这 个 标准 的 接口 来 完成 自己 的 驱动 程序 。 这 里 提 到 的 标准 接口 ， 是 网 络 操作 系统 需 
要 针对 网 元 进行 抽象 ， 规 定 一 套 具 体 的 交互 接口 来 和 转发 器 交换 信息 。 这 样 相当 于 转发 
器 可 以 千差万别 ， 但 是 经 过 这 个 网 元 抽象 后 ， 所 有 的 转发 器 对 上 面 的 操作 接口 就 只 有 一 
套 抽象 接口 了 。 这 样 的 网 络 操作 系统 的 架构 如 图 3-10 所 示 。 


网 络 操作 系统 


网 络 层 资 源 管理 


网 元 资源 抽象 层 


网 元 抽象 模型 网 元 抽象 模型 | | 网 元 抽象 模型 
数据 实例 数据 实例 数据 实例 


厂家 1 转发 器 厂家 2 转发 器 | | 厂家 3 转发 器 
驱动 程序 驱动 程序 驱动 程序 
接口 协议 厂家 私有 接口 


图 3-10 网络 操作 系统 


这 里 ， 定 义 了 网 元 资源 抽象 层 ， 通 过 网 元 资源 抽象 层 定义 了 一 套 标准 接口 ， 各 个 三 
家 驱动 程序 能 够 对 接 到 网 元 抽象 层 的 标准 接口 ， 然 后 相关 的 转发 器 资源 数据 实例 会 被 按 
照 逻辑 网 元 的 形式 组 织 管理 。 经 过 网 元 抽象 层 后 的 转发 器 资源 数据 组 织 都 是 同 构 的 ， 对 
于 同一 类 型 的 转发 器 ， 其 资源 模型 都 是 同 构 一 致 的 ， 已 经 不 存在 具体 的 转发 器 的 详细 物 
理 细节 、 厂 家 信息 等 的 差异 。 


3.2.2 ”网 络 操作 系统 的 管理 范围 
网 络 操作 系统 ， 顾 名 思 义 ， 就 是 一 个 网 络 的 操作 系统 ， 主 要 负责 网 络 中 各 种 资源 的 
管理 。 从 总 体 上 ， 可 以 把 这 些 资源 管理 进行 分 层 ， 主 要 包括 网 络 资源 管理 、 网 元 资源 管 


理 、 网 元 硬件 管理 、 驱 动 程序 管理 、 接 口 协议 管理 。 网 络 操作 系统 的 总 体 层次 如 图 3-11 
所 示 。 





66 SDN 原理 解析 一 一 转 控 分 离 的 SDN 架构 


网 络 资源 管理 


网 元 资源 管理 网 元 硬件 管理 


驱动 程序 管理 
接口 协议 管理 





图 3-11 网 络 操作 系统 的 分 层 


接 下 来 分 别 介绍 这 些 资源 管理 。 

1. 接口 协议 管理 

控制 器 和 转发 器 之 间 需 要 建立 控制 协议 , 通常 包括 OpenFlow、Netconf、 BGP、PCEP、 
TL1、Qx 等 接口 协议 。 其 中 OpenFlow 协议 是 典型 的 控制 器 和 转发 器 之 间 的 控制 协议 ， 
其 他 的 协议 则 是 在 SDN 提出 之 前 就 已 经 存在 的 网 络 设备 的 北向 接口 。 采 用 传统 网 络 设备 
的 北向 协议 作为 转发 器 和 控制 器 之 间 的 通信 协议 ， 其 好 处 是 从 现 网 向 SDN 演进 更 加 方 
便 ， 因 为 可 以 避免 传统 网 络 设备 的 软件 大 规模 改造 升级 。 

具体 的 网 络 操作 系统 的 接口 协议 选择 可 以 由 用 户 配 置 ， 比 如 下 面 这 样 : 


FP 100 
Connect Protocol: Netconf 
Netconf 
Version: 1.0 
Username: huawei 
Password: yl18912 


连接 协议 如 果 不 采用 配置 方式 ， 也 可 以 采用 控制 器 和 转发 器 协商 方式 ， 这 要 求 在 控 
制 器 和 转发 器 之 间 定 义 一 个 初始 化 注册 协议 ， 该 协议 需要 是 一 个 标准 协议 。 各 个 转发 器 
厂家 都 实现 这 个 协议 ， 通 过 这 个 初始 化 注册 协议 完成 通信 协议 的 协商 问题 。 

有 一 种 观点 认为 ， 如 果 控 制 器 采用 传统 网 络 设备 的 北向 接口 协议 作为 控制 协议 ， 那 
么 这 个 控制 器 不 就 是 一 个 网 管 吗 ? 这 里 尽管 采用 了 传统 设备 的 北向 接口 协议 ， 但 和 传统 
的 网 管 仍然 是 有 差别 的 。 本 来 控制 器 和 转发 器 之 间 采 用 什么 接口 协议 ， 并 不 是 判断 网 络 
是 否 是 SDN 网 络 架构 的 标准 , 而 控制 器 和 转发 器 传递 的 数据 才 是 重要 的 。 控制 器 和 转发 
器 之 间 传 递 的 数据 如 果 是 控制 数据 , 则 符合 SDN 网 络 架构 。 比 如 控制 器 为 转发 器 下 发 一 
条 静态 路 由 ， 直 接 指定 转发 器 按照 这 条 路 由 来 转发 ， 而 当 网 络 状态 发 生变 化 时 ， 控 制 器 
可 以 撤销 这 条 静态 路 由 ， 并 重新 下 发 其 他 静态 路 由 ， 这 就 是 一 种 控制 行为 。 下 发 静态 路 
由 本 身 是 一 种 控制 数据 ， 而 传统 业务 的 网 管 不 具备 对 网 络 进 行 实 时 反馈 控制 的 能 力 。 

理论 上 ， 在 一 个 SDN 网 络 实例 中 ， 各 个 转发 器 和 控制 器 可 以 采用 不 同 的 控制 协议 ， 
但 是 在 实际 部 署 中 ， 建 议 所 有 的 转发 器 采用 相同 的 控制 协议 ， 这 样 对 于 网 络 的 管理 会 更 
加 容易 。 

网 络 操作 系统 对 这 些 接口 协议 的 管理 主要 是 为 每 个 转发 器 配置 接口 协议 类 型 和 接 
口 协议 参数 。 网 络 操作 系统 还 会 管理 接口 协议 的 连接 参数 数据 ， 这 些 参 数 数据 包括 连接 
IP 地 址 、 安 全 认证 方式 和 认证 密 钥 等 ， 以 确保 控制 器 和 转发 器 连接 的 安全 性 。 
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网 络 操作 系统 会 根据 配置 来 加 载 正 确 的 接口 协议 程序 ， 并 负责 监控 这 些 接口 协议 的 
连接 状态 。 如 果 接 口 协议 的 连接 状态 发 生变 化 ， 比 如 连接 状态 从 UP 变 为 DOWN， 那 么 
这 个 事件 必须 能 够 通告 给 关心 这 个 事件 的 上 层 网 络 业务 应 用 程序 。 因 为 控制 器 和 转发 器 
的 连接 中 断 ， 也 就 意味 着 控制 器 和 该 转发 器 无 法 通信 。 这 种 故障 可 能 是 因为 通信 链 路 中 
断 ， 也 可 能 是 转发 器 本 身 骨 溃 。 不 管 什么 原因 ， 结 果 都 是 这 台 转 发 器 失去 控制 了 。 此 时 
网 络 业务 应 用 程序 就 需要 进行 必要 的 调整 ， 比 如 重新 选择 网 络 交换 路 径 或 者 重新 生成 网 
络 接 入 业务 路 由 。 

2.， 驱动 程序 管理 

网 络 操作 系统 需要 针对 每 个 转发 器 安装 特定 的 驱动 程序 。 当 然 ， 网 络 操作 系统 内 部 
可 以 内 典 一 套 默认 的 驱动 程序 ， 比 如 采用 OpenFlow 的 数据 模型 作为 默认 的 驱动 程序 。 
当 不 特别 指定 驱动 程序 时 ， 可 以 采用 默认 驱动 程序 来 驱动 转发 器 。 当 然 ， 默 认 驱 动 程序 
能 够 工作 的 前 提 是 ， 这 个 默认 驱动 程序 是 一 种 通用 的 标准 协议 ， 且 各 个 厂家 的 转发 器 都 
实现 了 默认 的 驱动 程序 。 

这 里 要 区 分 驱动 程序 和 接口 协议 的 区 别 。 接 口 协 议 是 一 个 通信 协议 ， 定 义 了 通信 实 
体 之 间 的 通信 和 原 语 ;驱动 程序 则 是 利用 接口 协议 和 转发 器 进行 通信 。 

驱动 程序 的 重要 作用 是 完成 网 络 操作 系统 的 标准 数据 模型 到 转发 器 的 具体 数据 模 
型 的 转换 ， 转 换 生 成 的 数据 实例 可 以 通过 不 同 的 接口 协议 下 发 到 转发 器 。 系 统 也 可 以 实 
现 一 个 默认 的 驱动 程序 ， 这 个 驱动 程序 定义 了 一 套 标准 的 驱动 模型 和 接口 协议 ， 比 如 
OpenFlow 协议 ， 当 无 法 找到 驱动 程序 时 ， 可 以 试 着 用 这 个 默认 驱动 模型 驱动 转发 器 。 

网 络 操作 系统 会 根据 转发 器 的 三 个 主要 信息 来 找到 驱动 程序 :转发 器 厂家 、 转 发 器 
设备 类 型 、 转 发 器 软件 版 本 号 。 比 如 ， 通 常 的 网 络 操作 系统 允许 用 户 配置 这 些 参 数 : 


FP 100 
Vendor: Huawei 
Product name: NE5000E 
Software version: VRPV8R1B01D05 


这 样 ， 网 络 操作 系统 会 根据 这 些 信息 在 驱动 程序 库 中 搜索 对 应 的 驱动 程序 ， 并 加 
载运 行 。 

当然 ， 这 些 参数 也 可 以 通过 转发 器 上 报 自 己 的 设备 信息 获得 。 当 转发 器 向 网 络 操作 
系统 注册 时 ， 上 报 这 些 信息 ， 网 络 操作 系统 会 根据 这 些 信 息 找到 驱动 程序 并 安装 。 同 上 
面 的 接口 协议 协商 一 样 ， 要 解决 设备 初始 注册 的 过 程 ， 转 发 器 要 先 与 控制 器 建立 连接 才 
能 通信 ， 而 当 没 有 安装 驱动 程序 时 ， 转 发 器 是 没有 办 法 和 控制 器 进行 通信 的 。 为 了 解决 
这 个 问题 ， 需 要 有 一 个 初始 的 标准 控制 器 、 转 发 器 协商 协议 。 这 个 协议 应 该 是 一 个 公开 
的 标准 协议 ， 所 有 转发 器 都 实现 这 个 标准 的 初始 化 注册 协议 ， 就 如 同 个 人 计算 机 中 的 
BIOS 系统 。 通 过 这 个 标准 化 的 初始 化 协议 ， 转 发 器 和 控制 器 可 以 直接 建立 连接 并 通告 
一 些 信息 ， 这 里 就 可 以 通报 自己 设备 的 信息 ， 以 便 网 络 操作 系统 能 够 安装 驱动 程序 。 

网 络 操作 系统 现在 可 以 根据 设备 信息 找到 合适 的 驱动 程序 ， 安 装 到 系统 来 驱动 转发 
器 了 。 网 络 操作 系统 安装 的 驱动 程序 通常 是 第 三 方 开发 的 ， 为 了 解决 安全 问题 ， 网 络 操 
作 系 统 必 须 对 驱动 程序 实施 认证 管理 ， 以 避免 驱动 程序 可 能 带 来 的 恶意 破坏 ， 同 时 ， 在 
技术 上 还 要 解决 驱动 程序 的 权限 问题 ， 仅 仅 提供 必要 的 系统 调用 权限 给 驱动 程序 ， 使 得 
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驱动 程序 使 用 的 系统 服务 是 满足 其 功能 的 最 小 集合 。 

3. 网 元 硬件 管理 

这 里 的 网 元 是 指 转 发 器 。 网 元 硬件 资源 管理 是 转发 器 的 硬件 管理 ， 对 应 传统 网 络 中 
的 网 元 管理 系统 (EMS )。 网 元 硬件 资源 管理 包括 管理 网 元 的 物理 硬件 信息 ， 比 如 框 、 
槽 、 板 、 卡 、 电 源 、 风 扇 、 温 度 监控 等 。 这 些 物理 硬件 的 管理 不 是 控制 系统 的 一 部 分 。 
前 面 介绍 了 网 络 包括 转发 面 、 控 制 面 、 管 理 面 ， 网 元 硬件 管理 属于 管理 面 。 作 为 一 个 完 
整 的 网 络 操作 系统 ， 可 以 把 这 个 功能 作为 网 络 操作 系统 的 一 部 分 来 看 待 。 如 何 对 待 这 部 
分 功能 是 有 争议 的 , 有 人 认为 这 部 分 功能 原本 是 网 元 网 管 的 一 个 管理 功能 , 在 SDN 网 络 
架构 下 ， 仍 然 可 以 把 这 个 部 分 单独 地 作为 一 个 独立 网 络 管理 模块 部 署 ， 而 不 是 集成 到 网 
络 操作 系统 中 。 

这 部 分 的 硬件 管理 功能 通常 不 会 影响 网 络 控制 部 分 的 功能 ， 因 为 网 络 业 务 应 用 程序 
在 实现 逻辑 中 ， 通 常 不 会 考虑 任何 与 物理 硬件 相关 的 物理 信息 ， 而 是 依赖 网 络 操作 系统 
提供 的 资源 抽象 接口 。 这 样 存 在 争议 是 正常 的 。 

4. 网 元 资源 管理 

网 络 在 高 层 抽象 层次 上 ， 可 以 看 作 是 由 网 元 以 及 网 元 之 间 的 连接 构成 的 ， 这 一 点 对 
于 SDN 网 络 和 传统 网 络 都 是 正确 的 。 网 络 操作 系统 需要 对 网 元 资源 进行 管理 。 网 元 的 哪 
些 资 源 需要 网 络 操作 系统 进行 管理 ， 取 决 于 网 元 的 类 型 ， 比 如 网 元 类 型 可 以 分 为 0 层 和 
1 层 的 光 传 输 设备 、2 层 交 换 机 设备 、2.5 层 MPLS 交换 设备 、3 层 卫 设备 、3 层 以 上 的 
增值 业务 处 理 设 备 〈 防 火 墙 、 缓 存 等 )。 针 对 具体 的 网 元 类 型 其 网 元 资源 是 不 同 的 。 

网 络 操作 系统 对 这 些 网 元 资源 进行 管理 ， 都 需要 对 特定 类 型 的 网 元 进行 抽象 。 抽 和 象 
后 只 对 上 层 的 网 络 业务 应 用 程序 提供 抽象 的 资源 访问 接口 ， 而 抽象 后 的 网 元 资源 也 可 以 
作为 一 种 标准 ， 供 各 个 转发 器 厂家 开发 自己 的 驱动 程序 ， 对 接 这 个 抽象 后 的 网 元 资源 访 
问 接口 。 正 是 这 种 机 制 ， 使 得 网 络 操作 系统 中 的 上 层 网 络 应 用 程序 能 够 屏蔽 底层 转发 器 
的 物理 、 厂 家 差异 ， 使 得 这 些 网 络 业务 应 用 程序 构建 在 这 个 抽象 基础 上 ， 而 不 必 去 关心 
具体 的 物理 细节 。 

网 元 资源 管理 中 包含 网 元 转发 所 需 的 流 表 信 息 ， 这 些 信 息 通常 是 由 网 络 业务 应 用 程 
序 计算 出 来 的 ， 用 于 指导 转发 器 如 何 对 从 线路 进入 的 数据 进行 转发 。 流 表 有 时 也 称 为 路 
由 表 、 转 发 表 ， 都 是 一 个 概念 。 流 表 资 源 管理 功能 需要 能 够 缓存 流 表 ， 当 转发 器 重启 动 、 
与 转发 器 的 连接 重建 过 程 ， 都 需要 把 这 些 流 表 重 新 下 发 给 转发 器 ， 以 保证 控制 器 和 转发 
器 的 数据 一 致 性 。 另 外 ， 流 表 资 源 管 理 同 其 他 资源 管理 一 样 ， 通 常 需 要 提供 增 、 删 、 改 、 
查 、 状 态 变化 通知 功能 。 

网 元 资源 中 的 流 表 需 要 一 个 抽象 的 标准 接口 ， 以 便 多 个 网 络 业务 应 用 程序 能 够 同时 
操作 一 个 转发 器 流 表 。 有 一 种 观点 认为 ， 采 用 OpenFlow 协议 定义 的 流 表 可 以 作为 网 络 操 
作 系 统 的 API 提供 给 网 络 业 务 应 用 程序 使 用 。 这 种 观点 和 使 用 抽象 的 标准 流 表 接 口 是 不 
同 的 。 抽 象 的 标准 流 表 实际 上 根据 转发 器 类 型 定义 了 一 套 标准 的 转发 模型 ， 开 放 的 接口 
只 能 操作 这 个 标准 的 转发 模型 , 而 各 个 厂家 的 转发 器 为 了 能 够 被 网 络 业务 应 用 程序 控制 ， 
通常 需要 实现 一 个 驱动 程序 ， 来 完成 标准 的 转发 模型 到 厂家 转发 器 的 转发 模型 转换 。 而 
OpenFlow 协议 对 于 一 种 特定 的 业务 , 可 以 定义 出 不 同 的 转发 模型 , 这 样 网 络 业 务 应 用 程 
序 就 需要 感知 多 种 转发 模型 ， 这 给 网 络 业 务 应 用 程序 的 编写 造成 麻烦 。 这 两 者 的 区 别 可 
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以 如 图 3-12 所 示 。 


基于 标准 的 转发 模型 开发 业务 应 用 程序 基于 OF 的 转发 模型 开发 业务 应 用 程序 





图 3-12 基于 标准 的 转发 模型 和 基于 OF 的 转发 模型 开发 业务 应 用 程序 


显然 地 ， 作 为 一 个 网 络 操作 系统 ， 应 该 屏蔽 底层 转发 器 的 转发 模型 差异 。 而 基于 三 
家 各 自 的 OF (OpenFlow) 转发 模型 方式 ， 没 有 达到 对 网 络 业务 应 用 程序 屏蔽 底层 转发 
器 转发 模型 的 差异 ， 是 不 合适 的 。 

图 3-13 所 示 的 是 另外 一 种 针对 基于 厂家 OF 转发 模型 的 有 趣 实现 。 


网 络 业 务 应 用 网 络 业务 应 用 网 络 业务 应 用 
程序 1 程序 2 程序 3 


业务 程序 1 生 业务 程序 2 生 业务 程序 3 生 
成 的 OF 模型 成 的 OF 模型 成 的 OF 模型 


万 能 模型 转换 
程序 


厂家 1 OF 转发 厂家 2 OF 转发 厂家 3 OF 转发 
模型 模型 模型 





图 3-13 ”使 用 万 能 模型 转换 程序 对 模型 进行 转换 


该 模型 希望 能 够 通过 一 个 万 能 的 转发 模型 变换 程序 ， 使 得 任意 的 OF 转发 模型 可 以 
转换 为 其 他 任意 形式 的 转发 模型 。 这 种 想法 是 好 的 ， 但 是 限于 其 实现 难度 ， 很 难 设计 出 
这 样 的 万 能 模型 转换 程序 。 

总 体 来 说 ， 网 络 操作 系统 的 转发 器 资源 管理 中 的 流 表 管 理 ， 需 要 由 网 络 操作 系统 定 
义 出 一 套 标准 的 抽象 转发 模型 ， 来 隔离 转发 器 转发 模型 上 层 网 络 业 务 应 用 程序 ， 使 得 转 
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发 器 和 上 层 网 络 业务 应 用 程序 可 以 解 耦 。 

网 元 资源 管理 中 需要 管理 转发 器 的 接口 资源 。 它 对 转发 器 的 所 有 端口 都 抽象 为 接 
口 ， 接 口 资源 中 可 以 管理 接口 相关 的 属性 数据 包括 接口 类 型 、 接 口 带 宽 等 属性 。 

网 元 资源 管理 还 根据 转发 器 的 具体 类 型 来 管理 不 同 的 资源 ， 比 如 MPLS 交换 的 标签 
资源 、 光 设备 的 波长 资源 等 。 此 类 资源 通常 是 共享 资源 ， 网 络 业务 应 用 程序 在 使 用 这 些 
资源 时 ， 必 须 通过 网 络 操作 系统 进行 管理 。 网 络 操作 系统 需要 对 这 些 共 享 资源 提供 互 斥 
保护 ， 以 避免 资源 分 配 冲 突 。 而 这 些 资源 的 分 配 及 管理 当面 临 分 布 式 控制 和 SDN 控制 器 
集中 控制 系统 同时 对 网 络 进行 控制 时 ， 这 些 共享 资源 管理 会 变 得 更 加 复杂 ， 而 分 布 式 控 
制 网 络 系统 和 SDN 控制 器 同时 对 网 络 进行 控制 是 传统 网 络 平滑 演进 到 SDN 的 必 经 阶段 ， 
这 种 对 网 络 同时 存在 分 布 式 控制 和 SDN 集中 控制 的 组 网 通常 称 为 混合 组 网 模式 或 者 
Hybrid 组 网 模式 。 

网 元 资源 中 还 包括 设备 ID 资源 ， 通 常 一 台 设 备 需要 具备 唯一 的 设备 ID。 但 是 由 于 
一 台 设 备 可 能 同时 拥有 多 种 ID 表达 方式 ， 比 如 在 一 台 三 层 路 由 器 设备 中 ， 不 同 协议 定 
义 了 不 同 的 ID 体系 ， 比 如 MPLS 用 LSRID、OSPF 用 Router ID、ISIS 用 system ID， 如 
此 等 等 ， 这 样 就 需要 网 元 资源 中 管理 这 些 设备 ID 的 关系 。 

网 元 资源 管理 中 也 包括 网 元 配置 数据 管理 。 这 部 分 功能 主要 是 由 控制 器 管理 网 元 的 
一 些 基本 配置 数据 ， 这 些 配置 数据 是 通过 类 似 OpenFlow 的 配置 协议 或 者 直接 通过 
Netconf 等 配置 协议 配置 到 网 元 的 。 除了 负责 管理 这 些 配 置 数据 之 外 ,作为 网 元 的 配置 数 
据 的 管理 中 心 ， 控 制 器 同样 需要 对 这 些 配置 数据 进行 抽象 ， 提 供 一 套 由 控制 器 定义 的 配 
置 数据 模型 。 当 需要 下 发 配置 给 转发 器 时 ， 由 驱动 程序 完成 到 各 自 厂 家 的 转发 器 的 配置 
数据 模型 的 转换 。 这 里 的 配置 数据 主要 是 一 些 基础 的 网 元 配置 数据 ， 比 如 一 些 接 口 物理 
属性 、 转 发 器 工作 模式 、 转 发 器 连接 控制 器 的 连接 数据 等 。 当 然 ， 在 某 些 解决 方案 中 ， 
配置 数据 可 能 会 管理 更 多 类 型 的 网 元 配置 数据 ， 有 时 也 包括 业务 配置 数据 。 

网 元 资源 管理 还 提供 通信 资源 服务 ， 主 要 功能 是 完成 转发 器 的 控制 协议 报 文 的 转交 
服务 ， 对 应 OpenFlow 中 的 Packet 服务 ， 对 上 层 网 络 业 务 程序 提供 报 文 的 接收 和 发 送 服 
务 。 比 如 ，SDN 网 络 外 部 设备 与 SDN 网 络 边缘 业务 转发 器 建立 的 BGP 邻居， 原本 在 传 
统 的 分 布 式 网 络 中 , 这 些 BGP 连接 和 报 文 会 被 转发 器 本 地 协议 栈 接收 和 处 理 ， 而 现在 希 
望 进行 边缘 接 入 业务 的 集中 控制 ， 所 以 这 些 BGP 报 文 也 需要 被 转交 到 控制 器 完成 处 理 ， 
这 样 网 络 操作 系统 中 的 网 元 资源 管理 才 可 以 提供 这 种 报 文 处 理 服务 。 其 主要 机 制 也 是 采 
用 OpenFlow 协议 在 转发 器 控制 器 之 间 传 递 报 文 ， 然 后 通过 网 元 资源 管理 层 统一 对 上 层 
提供 协议 报 文 收发 服务 。 

综 上 ， 网 元 资源 管理 所 需 管理 的 各 种 资源 ， 包 括 流 表 管 理 、 设 备 ID 管理 、 接 口 管 
理 、 通 信和 资源 管理 等 ， 对 外 提供 的 接口 为 资源 的 增 、 删 、 改 、 查 、 状 态 变化 通知 等 。 

5. 网 络 资源 管理 

(1) 网 络 拓扑 资源 管理 

网 络 操作 系统 中 包括 网 络 资源 管理 ， 其 中 最 重要 的 网 络 资源 是 拓扑 资源 。 拓 扑 资源 
包括 转发 器 节点 node)、 转 发 器 节点 上 的 接口 (interface)、 接 口 之 间 的 连接 关系 〈link) 
三 个 主要 对 象 。 拓 扑 资源 管理 主要 是 管理 这 三 个 对 象 以 及 这 些 对 象 的 属性 。 拓 扑 资源 管 
理 的 重要 功能 是 提供 这 些 对 象 的 增 、 删 、 改 、 查 和 状态 变化 通告 。 拓 扑 资源 数据 的 主要 
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使 用 者 是 位 于 网 络 操作 系统 上 层 的 网 络 业 务 应 用 程序 ， 这 些 网 络 业务 应 用 程序 需要 根据 
拓扑 来 计算 网 络 内 部 交换 路 径 和 网 络 边缘 业务 的 路 由 。 

拓扑 资源 管理 中 的 拓扑 数据 有 几 种 方法 获取 。 第 一 种 方法 是 通过 专门 的 拓扑 收集 协 
议 进行 拓扑 收集 。 典 型 的 拓扑 收集 协议 包括 传统 的 OSPF 协议 、ISIS 协议 、LLDP。 其 中 ， 
LLDP 可 以 作为 网 络 操作 系统 的 接口 协议 的 一 部 分 ， 而 OSPF/ISIS 协议 则 不 能 看 作 是 接 
口 协议 的 一 个 部 分 ， 原 因 是 这 两 个 协议 和 特定 的 转发 器 没有 关系 ， 通 常 这 个 协议 是 控制 
器 设备 本 身 作 为 一 个 协议 邻居 和 路 由 器 运行 OSPF/ISIS 协议 ， 此 时 控制 器 设备 本 身 就 是 
一 台 普 通路 由 器 。 拓 扑 收集 协议 还 包括 BGP-LS 协议 ， 它 可 以 收集 转发 器 上 ISIS、OSPF 
协议 的 拓扑 数据 ， 并 可 以 通过 一 个 BGP-LS 协议 连接 收集 多 个 IGP 域 的 拓扑 数据 。 在 很 
多 网 络 场景 下 ， 比 如 分 层 控制 器 之 间 的 拓扑 收集 或 者 网 络 中 存在 IGP 多 域 时 ，BGP-LS 
可 以 有 效 地 完成 拓扑 收集 功能 。 

第 二 种 拓扑 数据 收集 方法 是 ， 网 络 管理 员 通 过 北向 接口 直接 在 网 络 中 增加 拓扑 对 
象 。 在 某 些 网 络 场景 下 ， 由 于 网 络 现存 条 件 的 限制 ， 控 制 器 需要 的 拓扑 信息 无 法 从 转发 
器 收集 ， 则 可 以 采用 由 网 络 管理 员 配 置 的 方式 加 入 拓扑 。 管 理 员 对 拓扑 数据 的 配置 还 包 
括 对 对 象 的 带宽 属性 、 时 延 属 性 等 流量 工程 数据 进行 配置 。 原 本 这 些 数据 是 需要 配 
置 在 转发 器 的 接口 对 象 上 的 , 现在 则 可 以 直接 配置 到 控制 器 的 拓扑 资源 管理 模块 中 。 

第 三 种 拓扑 资源 数据 是 一 些 拓 扑 状 态 数据 ， 这 些 状 态 变 化 可 以 来 自 拓扑 收集 协议 ， 
有 时 也 来 自 于 转发 器 驱动 程序 。 当 转发 器 驱动 程序 
发 现 接口 状态 变化 时 ， 可 以 直接 通过 网 元 资源 管理 
的 接口 状态 管理 通报 给 拓扑 资源 管理 模块 ， 这 样 可 
以 更 加 快速 地 感知 网 络 状态 变化 。 拓 扑 数据 来 源 如 
图 3-14 所 示 。 

在 一 个 具体 的 SDN 网 络 实例 中 可 能 包含 多 种 
拓扑 收集 协议 ， 而 这 些 拓扑 收集 协议 之 间 对 拓扑 对 
象 的 ID 标记 并 不 相同 ， 比 如 ，ISIS 采用 System ID 
作为 对 象 标记 ，OPSF 则 采用 IP 地 址 作为 标记 。 拓 图 3-14 拓扑 资源 数据 来 源 
扑 资源 管理 既 要 能 够 统一 标记 拓扑 对 象 ， 又 要 能 
提供 基于 各 种 标记 体系 之 间 的 互相 转换 。 因 为 网 络 业务 应 用 程序 可 能 根据 不 同 的 对 象 标 
记 体 系 来 查询 请 求 拓扑 信息 。 

在 拓扑 资源 管理 中 ， 拓 扑 是 分 层 的 。 这 是 因为 网 络 是 分 层 的 ， 比 如 一 个 控制 器 如 果 
同时 控制 光 网 络 、 二 层 交 换 网 络 和 三 层 网 络 ， 那 么 拓扑 中 一 定 需要 同时 管理 光 层 拓扑 、 
二 层 网 络 拓扑 、 三 层 网 络 拓扑 。 控 制 器 还 需要 管理 这 些 多 层 拓扑 之 间 的 关系 ， 因 为 一 些 
网 络 业 务 应 用 程序 在 计算 路 径 时 ， 和 希望 对 多 层 网 络 进行 联合 路 径 优化 ， 它 需要 了 解 这 些 
拓扑 之 间 的 关系 ， 才 能 完成 任务 。 多 层 拓扑 示意 如 图 3-15 所 示 。 

在 拓扑 资源 管理 中 ， 拓 扑 数据 除了 包含 SDN 网 络 范围 内 的 网 络 拓扑 外 ， 有 时 为 了 解决 
方案 的 需要 ， 还 需要 增加 那些 连接 在 SDN 网 络 上 的 非 SDN 网 络 控制 范围 的 网 络 设 备 。 比 
如 ， 数据 中 心 解决 方案 , 希望 在 拓扑 中 增加 服务 器 或 者 虚拟 机 信息 ,这样 做 是 为 了 确定 服务 
器 或 者 虚拟 机 在 网 络 中 的 位 置 。 这 些 位 置信 息 是 网 络 业务 应 用 程序 在 计算 转发 表 时 需要 的 。 
广域网 解决 方案 中 的 L3VPN， 出 于 同样 理由 也 需要 在 拓扑 中 标注 CE 设备 的 位 置信 息 。 






拓扑 收集 协议 







网 络 拓扑 数据 


网 元 资源 管理 
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图 3-15 多 层 拓扑 示意 


拓扑 资源 数据 中 的 对 象 属性 需要 设计 成 可 扩展 的 ， 当 需要 向 拓扑 对 象 增加 新 的 对 象 
数据 时 ， 拓 扑 资源 管理 应 该 可 以 在 不 修改 代码 的 情况 ， 完 成 拓扑 对 象 属性 的 增加 。 这 
的 设计 才能 满足 灵活 的 拓扑 对 象 属性 数据 的 扩展 。 

(2) 网 络 性 能 数据 

通常 的 网 络 拓扑 数据 是 相对 静态 的 数据 ， 如 果 网 络 的 节点 、 链 路 没有 故障 ， 网 络 数 
据 就 不 会 有 变化 。 而 网 络 的 性 能 数据 则 是 网 络 运行 时 的 实时 统计 数据 ， 是 时 刻 变化 的 。 
网 络 操作 系统 需要 管理 网 络 性 能 数据 ， 这 些 网 络 性 能 数据 包括 网 络 中 接口 的 报 文 统计 数 
据 、 网 络 中 Link 的 实时 剩余 带宽 数据 、 网 络 中 Link 的 时 延 数 据 等 。 网 络 业 务 应 用 程序 
会 根据 这 些 实时 统计 数据 对 网 络 的 交换 路 径 和 边缘 业务 路 由 进行 优化 ， 以 使 得 网 络 达到 
最 佳 的 状态 。 

对 于 网 络 的 性 能 数据 的 来 源 ， 通 常 地 ， 性 能 数据 可 以 由 设备 驱动 程序 上 报 给 网 元 资 
源 管理 ， 比 如 接口 性 能 统计 数据 就 可 以 这 样 做 。 而 网 络 的 时 延 数据 等 则 需要 专门 的 性 能 
工具 来 完成 统计 ， 这 些 性 能 工具 包括 BFD、MPLS TP OAM、 以 太 OAM、IP FPM 等 。 
这 些 性 能 工具 可 以 快速 地 检测 网 络 的 连接 状态 、 时 延 、 抖 动 、 网 络 端 端 流量 等 数据 ， 这 
些 数据 对 于 网 络 业 务 应 用 程序 调控 网 络 非常 有 用 。 这 些 性 能 监控 工具 会 部 署 在 网 络 内 部 
的 所 有 link 上 ， 来 监控 这 些 link 的 状态 和 性 能 情况 。 

在 网 络 性 能 的 统计 中 ， 还 有 一 类 统计 是 对 网 络 的 流量 进行 详细 的 分 析 和 统计 ， 而 且 
是 针对 特定 用 户 或 者 特定 流量 进行 分 析 统 计 ， 比 如 传统 的 Netstream 流量 统计 。 这 些 统 
计 对 于 网 络 业务 应 用 程序 当然 也 是 非常 有 价值 的 。 这 里 不 打算 把 这 部 分 性 能 统计 归属 到 
网 络 操作 系统 功能 ， 原 因 是 网 络 操作 系统 并 不 管理 这 些 特定 用 户 的 特定 流量 的 对 象 。 网 
络 操作 系统 到 底 该 管理 哪些 对 象 的 统计 数据 ? 一 个 原则 是 根据 对 象 是 否 归属 网 络 操作 系 
统管 理 来 定 。 但 是 网 络 业 务 应 用 程序 有 时 还 需要 此 类 数据 ， 所 以 建议 单独 部 署 这 些 性 能 
统计 工具 ， 然 后 把 分 析 结 果 通 过 控制 器 北向 接口 直接 输入 给 网 络 业 务 应 用 程序 。 

由 于 控制 器 的 实时 性 非常 关键 ， 如 果 大 量 的 性 能 统计 信息 对 控制 器 和 转发 器 之 间 的 
带宽 占用 以 及 控制 器 的 计算 资源 消耗 过 大 ， 将 影响 控制 器 的 实时 性 ， 有 时 甚至 影响 重要 
的 交换 路 径 的 计算 和 业务 路 由 的 计算 。 因 此 ， 人 性 能 统计 数据 的 采集 时 间 间 隔 需 要 控制 ， 
比如 有 一 些 性 能 统计 数据 可 以 采用 秒 级 上 报 ， 而 一 些 关 键 的 通 断 数据 则 需要 事件 触发 方 
式 上 报 ， 以 达到 网 络 实时 性 ， 能 够 快速 对 业务 进行 收敛 。 或 者 这 部 分 性 能 统计 由 单独 的 





系统 来 进行 收集 分 析 ， 这 个 单独 的 系统 先进 行 初步 筛选， 分 析出 关键 数据 ， 再 输入 给 网 
络 操作 系统 。 这 个 独立 的 系统 可 以 作为 网 络 操作 系统 的 一 部 分 ， 只 是 要 和 控制 器 的 实时 
控制 程序 进行 分 离 部 署 。 

(3) 网 络 主机 数据 

网 络 主机 数据 主要 负责 管理 那些 连接 到 SDN 网 络 上 的 外 部 网 络 设备 的 数据 和 信息 ， 
比如 数据 中 心虚 拟 机 的 了 一、MAC 地 址 、 物理 服务 器 IP 地 址 以 及 位 置信 息 ， 也 包括 WAN 
网 络 中 企业 租户 的 网 络 设备 信息 。 这 些 数据 的 来 源 通 常 有 两 种 方法 。 一 种 方法 是 采用 控 
制 器 北向 接口 把 这 些 数据 配置 给 网 络 操作 系统 。 但 采用 的 是 静态 配置 方式 ， 很 难 解 决 用 
户 接 入 设备 的 移动 性 问题 .另外 一 种 方法 是 采用 虚拟 接 入 感知 方法 来 获得 这 些 主机 数据 。 
虚拟 接 入 感知 技术 通常 利用 网 络 设 备 接 入 SDN 网 络 的 协议 来 感知 这 些 主机 位 置信 息 , 这 
些 协议 包括 ARP、DHCP、802.1x、802.1Qbg 等 。 采 用 虚拟 接 入 感知 接 入 设备 位 置信 息 
的 方式 可 以 很 好 地 解决 接 入 设备 的 移动 性 问题 。 在 虚拟 接 入 感知 技术 中 , 出 于 安全 考虑 ， 
仅仅 采用 虚拟 接 入 感知 技术 来 感知 接 入 设备 位 置 ， 而 这 些 接 入 设备 的 大 部 分 信息 仍然 需 
要 从 控制 器 北向 接口 配置 。 

之 所 以 要 管理 这 些 信息 ， 是 因为 网 络 业务 应 用 程序 在 提供 网 络 业务 时 需要 获得 这 些 
数据 ， 以 便 为 这 些 接 入 设备 生成 业务 路 由 。 

(4) 网 络 虚拟 交换 网 (FABRIC) 管理 

网 络 的 基本 模型 是 ， 从 网 络 边缘 设备 的 业务 接 入 接口 接 入 业务 流量 ， 然 后 根据 业务 
路 由 把 这 些 业 务 流 量 转发 到 网 络 的 另 一 台 边 缘 设备 的 接 入 接口 ， 中 间 会 穿 过 一 个 或 者 多 
个 网 络 设备 。 在 SDN 网 络 架构 下 , 会 在 边缘 接 入 设备 到 其 他 边缘 接 入 设备 之 间 建 立 虚拟 
交换 路 径 。 这 些 虚拟 交换 路 径 统 称 网 络 虚 拟 交换 网 或 者 Fabric。 网 络 内 部 的 虚拟 交换 网 
如 图 3-16 所 示 。 


FEabrnel2_ 上 -一 - 


边缘 
1 
Fabric ~~ 边缘 设备 —-Fabric 


图 3-16 网 络 内 部 的 虚拟 交换 网 


这 些 网 络 虚拟 交换 网 是 连接 网 络 边 缘 设 备 的 虚 连 接 ， 这 些 虚 连接 可 能 经 过 网 络 中 的 
多 台 转 发 器 。 在 表现 上 ,这 些 虚 连接 和 一 个 接口 是 一 样 的 ， 当 业务 流量 进入 边缘 设备 时 ， 
根据 业务 路 由 ， 转 发 器 可 以 把 业务 流量 路 由 到 该 接口 上 。 这 些 接口 到 另外 一 个 边缘 设备 
表现 为 一 跳 可 达 。 这 个 接口 称 为 Fabric 接口 (interface fabric)。 这 些 Fabric 接口 和 普通 
接口 一 样 ， 存 在 带宽 、 时 延 、MTU 等 属性 。 

网 络 操作 系统 负责 这 些 Fabric 接口 的 管理 的 目的 ， 是 能 够 让 网 络 业务 应 用 程序 使 用 
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这 些 Fabric 接口 完成 路 由 计算 。 比 如 一 个 网 络 业务 应 用 程序 可 以 为 一 个 转发 器 FP1 生成 
下 面 的 路 由 信息 : 


FP1 
IP prefix 10.9.8.9/16 Nexhop FP2 OutInterface Fabric 12 


这 里 的 意思 是 说 ， 去 往 10.9.8.9/16 的 卫 报 文 ， 需 要 经 过 Fabric 接口 12 转发 给 FP2。 

尽管 网 络 操作 系统 管理 这 些 Fabric 接口 资源 如 同 管理 网 络 内 部 的 互联 物理 接口 资源 
一 样 ， 但 是 网 络 操作 系统 通常 不 需要 实现 生成 这 些 Fabric 路 径 的 程序 组 件 。 网 络 操作 系 
统 可 以 内 部 髓 入 一 种 基于 最 短路 径 的 默认 Fabric， 各 种 网 络 业务 应 用 程序 根据 网 络 管理 
员 的 策略 和 特定 约束 ， 实 现 各 种 各 样 的 算法 来 生成 Fabric 接口 ， 并 把 这 些 Fabric 接口 资 
源 加 入 虚拟 交换 网 资源 管理 模块 管理 ， 以 便 其 他 应 用 程序 可 以 使 用 这 些 接口 。 当 然 ， 这 
些 接口 会 在 多 层 拓扑 中 体现 ， 接 口 类 型 为 网 络 内 部 的 Fabric 接口 ， 这 样 网 络 业务 应 用 程 
序 就 更 加 容易 使 用 它们 了 。 

这 些 Fabric 接口 本 质 上 对 应 传统 网 络 的 隧道 。 在 SDN 网 络 中 ,Fabric 接口 的 实现 技 
术 可 以 有 多 种 ， 比 如 MPLS Fabric、IP Fabric、 光 Fabric 等 。 采用 MPLS 技术 实现 Fabric， 
网 络 内 部 采用 MPLS 交换 技术 来 实现 。 如 果 采 用 IP Fabric, 中 间 可 以 采用 类 似 GRE 等 隧 
道 技术 。 至 于 采用 什么 样 的 Fabric 技术 ， 可 以 根据 网 络 实际 应 用 来 选择 。 这 些 Fabric 的 
实现 技术 也 会 作为 一 种 属性 保存 在 Fabric 接口 对 象 中 。 


3.2.3 ”控制 器 和 网 络 操作 系统 的 区 别 


关于 控制 器 和 网 络 操作 系统 的 区 别 ， 这 里 再 次 强调 一 下 。 网 络 操作 系统 是 控制 器 的 一 
个 平台 层 ， 是 一 个 资源 管理 层 ， 提 供 各 种 资源 管理 ， 提 供 这 些 资源 的 增 、 删 、 改 、 查 、 状 态 
变化 通知 服务 。 也 就 是 说 ， 网 络 操作 系统 只 是 控制 器 的 一 个 部 分 ， 只 有 在 网 络 操作 系统 上 面 
增加 了 网 络 业务 应 用 程序 后 才 构 成 一 个 完整 的 控制 器 。 客 户 如 果 仅 仅 拿 到 这 个 网 络 操作 系 
统 , 其 实 是 没有 一 点 用 处 的 。 就 如 同 仅 仅 有 一 个 Windows 或 者 Linux, 对 使 用 者 是 没有 用 的 。 
因为 既 不 能 上 网 也 不 能 办 公 ， 原 因 在 于 没有 应 用 程序 可 用 。 也 就 是 说 如 果 在 WINDOWS 上 
没有 办 公 软 件 应 用 程序 ， 没 有 浏览 器 应 用 程序 ， 没 有 游戏 程序 ， 这 个 WINDOWS 没有 什么 
价值 。 网 络 操作 系统 相当 于 个 人 计算 机 的 操作 系统 部 分 , 用 户 需 要 在 这 个 网 络 操 作 系 统 上 增 
加 各 种 网 络 业 务 应 用 程序 , 才能 通过 这 些 网 络 业 务 应 用 程序 提供 的 服务 对 网 络 进 行 运营 、 部 
署 业 务 。 控 制 器 正 是 由 网 络 操作 系统 和 基于 网 络 操作 系统 的 网 络 业务 应 用 程 两 大 部 分 构成 
的 。 这 些 网 络 业务 应 用 程序 包括 L2VPN 服务 、L3VPN 服务 、 公 网 路 由 服务 等 。 





3.3 ”网 络 业 务 应 用 程序 


3.3.1 ”网络 业务 应 用 程序 的 基本 原理 


网 络 业务 应 用 程序 是 控制 器 实现 网 络 控制 的 逻辑 程序 ， 是 真正 实现 用 户 希 望 网 络 为 
其 提供 服务 的 实体 部 分 ， 也 就 是 说 ， 控 制 器 对 网 络 的 控制 是 通过 网 络 业务 应 用 程序 来 实 
现 的 ， 这 些 网 络 业务 应 用 程序 才 是 网 络 的 真正 控制 者 。 前 面 介绍 的 网 络 操作 系统 是 一 个 
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控制 器 平台 ， 提 供 网 络 的 资源 管理 功能 ， 其 管理 的 数据 主要 来 自 网 络 本 身 ， 这 些 数据 包 
括 网 元 数据 、 网 络 数据 和 周边 网 络 的 通信 协议 数据 等 ; 也 包括 用 户 对 网 络 资源 数据 的 一 些 
配置 ， 比 如 一 个 特定 的 网 络 内 部 的 性 能 监控 工具 选择 、 性 能 统计 周期 、 网 络 内 部 的 交换 技 
术 等 。 用 户 配置 这 部 分 数据 主要 是 对 网 络 内 部 的 一 些 预 置 条 件 进行 配置 ， 也 就 是 通常 说 是 
对 网 络 模型 的 选择 过 程 。 而 网 络 业务 应 用 程序 则 更 多 的 是 要 实现 用 户 对 网 络 的 期 望 ， 这 部 
分 程序 所 依赖 的 数据 包括 网 络 操作 系统 提供 的 各 种 资源 服务 、 用 户 策略 和 用 户 业 务 请 求 输 
入 、 其 他 应 用 系统 输入 的 数据 。 其 中 网 络 操作 系统 的 资源 服务 可 以 分 为 两 类 资源 : 

GD 和 外 部 网 络 通信 获得 的 资源 ， 比 如 和 外 部 网 络 进行 的 协议 连接 ， 比 如 通过 BGP 获得 
IP 前 级 位 置信 息 ， 通 过 ARP 获得 主机 的 下 和 MAC 地 址 对 应 信息 等 ; 

@ 网 络 本 身 的 资源 ， 比 如 网 元 资源 、 拓 扑 资源 等 。 

这 样 ， 一 个 网 络 业 务 应 用 程序 
的 基本 逻辑 视图 如 图 3-17 所 示 。 

网 络 业 务 应 用 程序 主要 利用 三 
个 方面 的 数据 : 用 户 输入 、 其 他 系 
统 输入 、 网 络 操作 系统 资源 数据 ， 





用 户 策略 、| 业务 请 求 输入 


网 络 业 务 应 用 程序 





其 根据 这 些 输入 数据 进行 特定 的 逻 
辑 架 构 ， 生 成 对 网 络 的 控制 数据 ， 事件 通告 站 各 从 
这 些 数据 包括 网 络 内 部 的 交换 路 径 


网 络 操作 系统 


图 3-17 网 络 业 务 应 用 程序 的 逻辑 


的 建立 数据 、 网 络 接 入 业务 的 业务 
路 由 数据 等 。 

用 户 输入 通常 包括 用 户 的 策略 
配置 和 用 户 的 业务 请 求 数据 。 用 户 业 务 策略 配置 通常 是 对 网 络 业 务 应 用 程序 进行 一 些 预 
置 的 策略 配置 ， 用 户 业 务 请 求 数据 通常 是 要 真正 地 对 外 提供 的 网 络 业务 的 数据 ， 比 如 创 
建 一 个 专线 PW 业务 ， 用 户 需 要 输入 专线 的 接 入 接口 和 专线 带宽 数据 。 网 络 业 务 应 用 程 
序 为 什么 没有 直接 归 类 到 网 络 操作 系统 中 ? 原因 正 是 网 络 业务 应 用 程序 需要 处 理 大 量 用 
户 策 略 和 用 户 定 制 需求 ， 不 同 的 用 户 、 不 同 的 网 络 、 不 同 的 时 间 段 ， 用 户 都 会 提出 各 种 
各 样 的 需求 ， 这 些 需 求 最 终 通 过 数据 形式 输入 给 控制 器 。 这 样 实现 这 部 分 用 户 需 求 的 程 
序 就 会 面临 复杂 多 变 的 情况 ， 是 非常 不 稳定 的 ， 而 网 络 操作 系统 是 一 个 控制 器 平台 ， 其 
负责 管理 的 资源 是 相对 稳定 的 。 这 样 把 多 变 的 业务 逻辑 作为 应 用 程序 实现 ， 把 稳定 的 、 
变化 少 的 资源 管理 作为 平台 实现 ， 把 易 变 和 稳定 的 业务 逻辑 进行 解 竹 ， 有 利于 系统 的 稳 
定 和 扩展 ， 也 更 加 有 利于 厂家 快速 交付 稳定 的 商用 控制 器 。 在 实际 交付 中 ， 可 以 由 不 同 
厂家 来 交付 一 些 特定 的 网 络 业 务 应 用 程序 ， 这 也 促进 了 竞争 ， 有 利于 产业 发 展 。 

其 他 的 数据 输入 系统 可 能 包括 网 络 安全 分 析 系 统 、 网 络 详细 流量 分 析 系 统 等 ， 这 些 
系统 通常 都 是 对 网 络 的 流量 进行 类 似 大 数据 分 析 。 这 些 大 数据 分 析 的 数据 不 一 定 仅 仅 来 
自 SDN 网 络 本 身 ， 甚 至 有 时 不 是 来 自 网 络 本 身 。 这些 系 统 通过 分 析 得 出 的 数据 , 会 希望 
对 网 络 进行 控制 并 调整 网 络 的 行为 。 这 样 可 以 把 这 些 数据 输入 给 网 络 业 务 应 用 程序 ， 网 
络 业务 应 用 程序 会 完成 后 续 的 网 络 行为 调整 。 一 个 简单 的 例子 是 网 络 安全 的 例子 ， 基 本 
实现 原理 如 图 3-18 所 示 。 

网 络 安全 分 析 系 统 在 对 网 络 进行 分 析 后 ， 发 现 某 些 网 络 中 的 某 些 流量 是 攻击 流量 ， 会 
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把 这 个 信息 输入 给 网 络 业务 应 用 程序 ;网络 业务 应 用 程序 会 根据 用 户 的 策略 决定 是 对 该 流量 
进行 清洗 还 是 丢弃 , 并 把 生成 的 路 由 信息 通过 网 络 操作 系统 下 发 给 转发 器 ; 转发 器 根据 这 些 
路 由 会 把 攻击 流量 识别 出 来 并 进行 丢弃 或 者 转发 给 流量 清洗 设备 进行 流量 清洗 。 





用 户 策略 、 | 业务 请 求 输入 


网 络 业 务 应 用 程序 


生成 控制 信息 






控制 器 


网 络 安全 
分 析 系 统 | 安全 信息 输入 





网 络 操作 系统 


图 3-18 网 络 安全 解决 方案 


网 络 业务 应 用 程序 需要 使 用 网 络 操作 系统 提供 的 资源 服务 。 这 些 服务 可 以 分 为 几 类 
信息 ， 其 中 一 类 是 网 络 本 身 的 信息 ， 比 如 网 元 资源 信息 或 者 网 络 资源 信息 ， 都 是 网 络 固 
有 的 数据 。 另 一 类 信息 是 网 络 操作 系统 提供 的 通信 资源 信息 ， 比 如 周边 网 络 设备 和 SDN 
网 络 的 边缘 设备 建立 了 BGP 连接， 那么 网 络 操作 系统 会 根据 网 络 业务 应 用 程序 的 要 求 ， 
把 此 类 BGP 通信 协议 报 文 信息 送 交 给 对 应 的 网 络 业务 应 用 程序 , 当然 也 会 为 该 网 络 业务 
应 用 程序 提供 报 文 发 送 服务 。 另 外 ， 网 络 业务 应 用 程序 为 了 能 够 实时 对 网 络 进行 控制 ， 
必须 及 时 了 解 网 络 状态 变化 。 网 络 操作 系统 会 根据 网 络 业务 应 用 程序 的 要 求 ， 把 特定 的 
网 络 状 态 变化 事件 通告 给 网 络 业务 应 用 程序 。 


3.3.2 ”两 类 的 基本 网 络 业务 应 用 程序 


前 面 讨论 过 ， 网 络 的 基本 模型 包括 两 个 部 分 : 网 络 内 部 的 交换 网 (Fabric) 和 网 络 
边缘 业务 接 入 点 。 通 过 网 络 内 部 的 交换 网 使 得 用 户 业 务 流量 可 以 穿 过 网 络 ， 到 达 网 络 的 
另外 一 个 边缘 业务 接 入 点 ; 网 络 边 缘 业 务 接 入 点 需要 根据 业务 路 由 决定 到 底 该 把 业务 流 
量 送 交 到 哪个 边缘 业务 接 入 点 。 这 样 ， 总 体 上 有 两 类 基本 的 网 络 业 务 应 用 程序 .网络 内 
部 Fabric 控制 程序 和 网 络 边 缘 业 务 控 制程 序 。 这 两 类 业务 应 用 程序 不 是 必须 分 离 的 ， 有 
时 一 个 网 络 业务 应 用 程序 本 身 集成 了 Fabric 控制 和 边缘 业务 控制 两 个 部 分 的 功能 。 

1. 网 络 内 部 Fabric 控制 程序 

网 络 内 部 的 Fabric 控制 程序 是 负责 网 络 内 部 Fabric 的 路 径 计 算 和 建立 的 程序 。 这 部 
分 程序 会 根据 用 户 要 求 的 各 种 约束 条 件 ， 结 合 网 络 资源 状态 ， 计 算出 符合 用 户 期 望 的 交 
换 路 径 ， 并 生成 网 络 交 换 路 径 转 发 信息 ， 然 后 调用 网 络 操作 系统 提供 的 流 表 服务 把 网 络 
交换 路 径 转发 信息 下 发 给 转发 器 。 在 传统 网 络 中 ， 典 型 的 交换 路 径 是 通过 SPF 算法 计算 
出 最 短路 径 。 所 有 的 交换 路 径 都 通过 最 短路 径 ， 也 就 是 说 网 络 流量 都 会 集中 到 最 短路 径 
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上 转发 。 网 络 的 各 个 方向 的 流量 本 身 可 能 是 不 均衡 的 ， 有 的 地 方 流量 拥塞 ， 有 的 地 方 还 
很 空 ， 现 在 由 于 网 络 内 部 的 Fabric 交换 路 径 都 由 控制 器 进行 集中 控制 ， 因 此 控制 器 可 
以 灵活 地 根据 网 络 流量 状态 和 用 户 业 务 带 宽 需 求 计 算出 所 需要 的 Fabric 交换 路 径 。 

网 络 内 部 的 Fabric 交换 路 径 程序 还 需要 根据 网 络 状态 变化 进行 Fabric 路 径 重 新 计 
算 ， 以 确保 Fabric 交换 路 径 始终 保持 正常 工作 。 为 了 提升 网 络 Fabric 的 计算 速度 ， 通 常 
地 ， 这 部 分 计算 程序 需要 对 算法 进行 优化 ， 比 如 仅仅 对 那些 受到 变化 的 路 径 进 行 重新 计 
算 。 另 外 ， 为 了 提升 网 络 收敛 速度 ， 网 络 Fabric 控制 程序 还 可 以 像 传统 网 络 一 样 ， 预 先 
计算 出 主 备 两 条 路 径 ， 这 样 ， 当 面临 单 点 故障 时 ， 边 缘 业 务 转 发 器 可 以 在 本 地 直接 完成 
主 备 路 径 切 换 ， 使 得 故障 对 网 络 业 务 影 响 降 到 最 低 ， 这 种 技术 对 应 传统 的 FRR 技术 。 

Fabric 控制 程序 除了 计算 路 径 和 生成 交换 路 径 转发 表 外 ， 为 了 能 够 快速 检测 交换 路 
径 的 状态 , 这 个 控制 程序 会 自动 为 这 些 交 换 路 径 部 署 监控 工具 ,比如 BFD, TP OAM 等 ， 
对 生成 的 交换 路 径 进 行 端 到 端 监控 。 这 样 一 旦 网 络 故障 ， 监 控 工 具 会 快速 发 现 ， 可 以 触 
发 转发 器 本 地 主 备 路 径 倒 换 ， 并 通过 控制 器 的 Fabric 控制 程序 进行 重新 路 径 计算 。 这 些 
性 能 监控 工具 通常 是 部 署 在 转发 器 的 , 它们 不 是 控制 程序 , 是 网 络 的 性 能 工具 , 是 Fabric 
的 监控 工具 。 此 类 性 能 监控 工具 只 有 运行 在 转发 器 才能 有 效 发 挥 其 作用 。 

2 网络 边 缘 业 务 控制 程序 

网 络 边缘 业务 控制 程序 是 使 网 络 接 入 业务 生成 路 由 信息 的 ， 而 生成 的 这 些 接 入 业务 
的 路 由 信息 是 下 发 给 网 络 边缘 的 业务 接 入 节点 (业务 接 入 转发 器 ) 的 。 边 缘 业 务 控制 程 
序 通 常 需 要 根据 通信 实体 〈 指 通信 主机 ) 相对 于 网 络 的 位 置信 息 来 生成 业务 路 由 。 这 些 
网 络 位 置信 息 在 传统 网 络 中 是 通过 类 似 BGP 这 样 的 路 由 协议 进行 扩散 的 , 其 他 的 网 络 位 
置信 息 感知 方法 还 包括 虚拟 接 入 感知 技术 ， 通 过 一 些 类 似 协 议 ARP、DHCP 等 感知 接 入 
设备 位 置 ， 也 可 以 由 用 户 从 北向 接口 配置 给 控制 器 。 

这 里 还 是 以 一 个 常见 的 传统 L3VPN 业务 为 例 ， 介 绍 网 络 边缘 业务 控制 程序 。 传 统 
的 L3VPN 业务 的 组 网 如 图 3-19 所 示 。 


控制 器 


L3VPN 业务 控制 程序 


BGP 报 文 生成 业务 路 由 信息 


网 络 操作 系统 / 
/ 


\ 









IP Prefix: 
109.8/16 ge3p. 


图 3-19 L3VPN 业务 实现 过 程 
假定 在 一 个 VPN 用 户 网 络 设备 CE1 一 侧 有 一 个 网 络 前 级 109.8/16，CE1 通过 BGP 
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通告 给 SDN 网 络 设备 的 FP1。 由 于 采用 了 边缘 业务 集中 控制 ， 此 时 FP1 会 把 BGP 报 文 
通过 OpenFlow 协议 上 送 给 控制 器 的 网 络 操 作 系 统 。L3VPN 业务 控制 程序 启动 时 会 向 网 
络 操 作 系 统 订 阅 BGP 报 文 的 处 理 ， 此 时 网 络 操作 系统 会 把 BGP 报 文 送 交 给 L3VPN 
业务 控制 程序 。L3VPN 接收 BGP 报 文 后 ， 解 析出 来 内 部 信息 ， 发 现 109.8/16 网 段位 
置 是 在 FP1 的 Ifl 接口 连接 的 CE1 设备 ， 也 就 是 说 ， 网 络 中 的 各 个 边缘 业务 接 入 转发 
器 如 果 收 到 该 VPN 用 户 携带 目的 地 址 为 109.8 网 段 的 IP 报 文 ， 都 需要 转发 给 FP1， 然 
后 FP1 会 把 它 转发 给 Ifl 接口 ， 这 样 这 个 VPN 用 户 去 往 109.8 网 段 的 IP 报 文 就 转发 
到 了 CE1。 为 了 达到 这 个 目的 ，L3VPN 业务 控制 程序 需要 了 解 网 络 中 有 多 少 个 网 络 
边缘 设备 已 经 发 现 该 VPN 客户 的 接 入 设备 , 然后 把 对 应 的 业务 路 由 信息 下 发 给 它们 。 
在 本 例 中 ，L3VPN 业务 控制 程序 会 给 FP2 下 发 一 条 业务 路 由 : 


FP2 
JP prefix 109.8/16 Nexthop FP1 Out interface If12 


为 了 区 分 不 同 客户 的 VPN 路 由 ， 这 里 假定 采用 传统 的 BGP VPN 方式 转发 ， 这 样 一 
来 ， 实 际 的 VPN 路 由 还 需要 增加 VPN 区 分 符 ， 传 统 L3VPN 网 络 采 用 MPLS 标签 作为 
VPN 路 由 区 分 符 ,通过 给 不 同 VPN 路 由 分 配 不 同 的 MPLS 标签 来 区 分 不 同 的 VPN 路 由 。 
这 样 ， 业 务 路 由 信息 会 修改 为 : 

FP2 

IP prefix 109.8/16 VPN label 10989 Nexthop FP1 Out interface If12 

同时 会 为 FP1 生成 这 样 的 业务 路 由 : 

FP1 

IP prefix 109.8/16 Nexthop CE1 Out interface Ifl 

这 样 ，L3VPN 业务 控制 程序 就 完成 了 SDN 网络 的 业务 路 由 的 生成 了 。 

L3VPN 还 需要 做 一 个 路 由 扩散 工作 。 如 果 L3VPN 仅仅 生成 业务 路 由 ， 不 进行 VPN 业 
务 路 由 扩散 ,结果 用 户 的 网 络 是 断 开 的 。 比 如 ，CE2 如 果 接 收 到 一 个 目的 他 地 址 为 109.8.11.2 
的 他 报 文 ,CE2 将 无 法 转发 这 个 报 文 ， 因 为 CE2 不 知道 这 个 网 段 的 位 置 ， 或 者 不 知道 该 报 
文 应 该 通过 FP2 来 转发 才能 到 达 目 的 地 。L3VPN 的 路 由 扩散 工作 正 是 由 其 控制 程序 通过 
BGP 将 业务 路 由 扩散 给 CE2, 以 便 CE2 能 够 生成 该 报 文 的 路 由 表 。L3VPN 业务 控制 程序 通 
过 代理 FP2 进行 109.8/16 的 业务 路 由 前 发 过 程 ， 它 将 该 路 由 封装 在 BGP 报 文 ， 通 过 网 络 操 
作 系 统 发 送 到 FP2， 然 后 FP2 会 把 BGP 报 文 发 送 给 CE2， 这样 CE2 就 学 习 到 了 这 个 业务 路 
由 ， 也 就 是 学 习 到 了 109.8/16 的 业务 路 由 是 指向 FP2 的 。 这 样 ， 整 个 用 户 的 网 络 就 打通 了 。 

、 总 结 上 面 的 实现 过 程 ， 不 难 发 现 L3VPN 业务 控制 程序 完成 了 两 项 重要 的 工作 。 一 项 是 
生成 业务 路 由 过 程 , 这 些 业务 路 由 只 需要 下 发 到 网 络 的 边缘 业务 接 入 转发 器 ; 另外 一 项 工作 
是 完成 业务 路 由 的 扩散 工作 。 整 个 过 程 都 是 由 一 个 L3VPN 业务 控制 程序 完成 ， 中 间 没 有 部 
署 传统 的 MP-BGP, 这 样 就 简化 了 网 络 协议 。 同 时 ,如 果 用 户 对 L3VPN 业务 有 各 种 新 需求 ， 
比如 增加 各 种 策略 控制 ， 只 需要 修改 和 升级 这 个 L3VPN 业务 控制 程序 就 可 以 了 。 这 正 是 
SDN 网 络 带 来 的 价值 。 进 一 步 地 ， 如 果 这 些 网 络 业务 控制 程序 也 开放 一 些 编程 接口 ， 那 么 
VPN 用 户 甚至 可 以 通过 这 些 编程 接口 定制 自己 的 业务 ， 增 加 了 整个 网 络 的 灵活 性 。 

在 控制 器 的 需求 中 ， 由 于 需要 SDN 网 络 和 传统 网 络 互 通 的 场景 ， 比 如 本 例 中 的 控 
制 器 需要 和 外 部 的 CE 进行 BGP 交互 路 由 数据 , 这 要 求 在 网 络 业 务 应 用 程序 中 实现 一 些 
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传统 的 互通 协议 。 根 据 SDN 控制 器 的 部 署 情况 不 同 而 需要 文 持 不 同 的 互通 协议 。 为 了 简 
化 互通 过 过 程 ， 通 常 建议 SDN 控制 器 可 以 按照 传统 的 自治 系统 方式 部 署 ， 这 样 SDN 控 
制 器 只 需要 运行 原来 的 跨 域 路 由 协议 ， 比 如 BGP。 这 样 对 于 SDN 控制 器 来 说 就 简单 很 
多 。 同 时 ， 网 络 的 运行 维护 管理 也 相对 简单 ， 因 为 可 以 按照 原来 的 自治 系统 划分 方式 来 
管理 网 络 ， 对 用 户 原 来 的 网 络 运行 维护 管理 流程 修改 相对 较 小 。 


3.3.3 ”分 布 式 操 作 系 统 


前 面 讨论 了 控制 器 的 构成 ， 控 制 器 是 一 个 网 络 控制 系统 ， 是 一 个 软件 系统 ， 包 含 网 
络 操作 系统 和 网 络 业务 应 用 程序 两 个 大 部 分 。 这 些 都 是 软件 程序 ， 既 然 是 软件 程序 ， 就 
需要 运行 在 一 台 服 务 嚣 上 (其实 可 以 运行 在 个 人 计算 机 甚至 手机 上 ， 由 于 控制 器 通常 会 
选择 运行 在 服务 器 上 ， 因 为 服务 器 相对 于 其 他 计算 机 系统 可 靠 性 更 高 ， 实 际 部 署 场景 也 
都 会 选择 服务 器 部 署 , 所 以 这 里 把 控制 器 软件 所 依赖 的 计算 机 定 为 服务 器 )。 但 软件 程序 
通常 不 能 直接 运行 在 服务 器 硬件 上 ， 而 是 运行 在 一 个 特定 的 服务 器 操作 系统 上 。 也 就 是 
说 ,软件 程序 并 不 会 直接 依赖 硬件 ,而 是 依赖 
软件 的 结构 如 图 3-20 所 示 。 

这 里 的 服务 器 操作 系统 可 以 是 Linux 系统 
也 可 以 是 Windows。 本 身 是 商用 操作 系统 ， 控 


制 器 软件 运行 在 其 上 层 ， 并 不 会 对 其 进行 修 。” 图 320 运行 在 服务 器 上 的 控制 器 软件 
改 。 这 些 商用 操作 系统 存在 的 价值 ， 是 因为 通过 这 些 操作 系统 进行 抽象 ， 可 以 屏蔽 底层 
具体 的 服务 器 硬件 细节 ， 让 上 面 的 应 用 程序 软件 〈 如 控制 器 软件 ) 不 需要 了 解 具体 服务 
器 的 各 种 硬件 细节 ， 也 不 需要 关心 这 些 服务 器 的 生产 厂家 。 

控制 器 是 一 个 软件 系统 ， 作 为 一 个 产品 交付 时 ， 不 同 厂家 可 能 有 不 同 的 交付 策略 。 
有 的 厂家 会 提供 多 个 选项 , 可 以 仅仅 提供 控制 器 软件 ,包括 网 络 操作 系统 和 网 络 业务 应 用 
程序 ， 也 可 以 把 控制 器 软件 和 商用 操作 系统 捆绑 提供 。 一 个 理由 是 出 于 安全 考虑 ， 厂 家 可 
能 对 商用 的 服务 器 操作 系统 进行 了 加 固 ; 还 可 以 连同 服务 器 硬件 和 服务 器 操作 系统 、 控 制 
器 软件 一 起 提供 一 个 产品 销售 和 交付 ， 这 样 做 的 理由 是 控制 器 的 运行 维护 界面 更 加 清楚 。 

图 3-20 所 示 的 控制 器 软件 是 运行 在 一 台 服 务 器 上 的 。 前 面 提 到 在 控制 器 设计 中 , 包 
括 两 个 重要 的 需求 ， 一 个 是 大 规模 的 网 络 控制 ， 另 一 个 是 实时 性 。 大 规模 的 网 络 控制 需 
要 支持 海量 的 转发 器 控制 ， 需 要 计算 出 大 量 的 内 部 交换 路 径 ， 需 要 实现 海量 的 接 入 业务 
路 由 的 处 理 ， 实 时 性 要 求 控制 器 能 够 在 尽 可 能 短 的 时 间 内 完成 路 由 的 计算 和 收敛 。 单 台 
服务 器 的 处 理 能 力 是 无 法 满足 这 些 需 求 的， 需要 考虑 用 多 台 服务 器 一 起 组 成 一 个 系统 来 
提供 并 行 处 理 ， 以 解决 大 规模 扩展 和 实时 性 问题 。 当 网 络 规模 变 大 ， 业 务 路 由 数量 增加 
时 ， 可 以 通过 增加 更 多 服务 器 来 解决 性 能 问题 ， 这 种 能 力 是 一 个 系统 的 伸缩 性 。 这 就 需 
要 控制 器 系统 采用 分 布 式 技术 ， 使 得 控制 器 软件 能 够 分 布 式 运行 在 多 台 服 务 器 中 ， 为 此 
控制 器 系统 的 结构 修改 为 如 图 3-21 所 示 。 

运行 在 分 布 式 系统 上 的 控制 器 软件 和 图 3-20 中 运行 在 单个 服务 器 上 的 控制 器 软件 
有 两 个 不 同 。 一 个 不 同 是 控制 器 软件 现在 运行 的 硬件 环境 是 多 台 服 务 器 ， 另 外 一 个 不 同 
是 增加 了 一 层 分 布 式 操作 系统 。 多 台 服 务 器 是 因为 需要 提升 计算 能 力 来 满足 控制 器 的 计 
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算 需 求 。 为 了 能 够 简单 有 效 地 利用 这 些 服 务 器 资源 ， 需 要 增加 一 个 分 布 式 操作 系统 来 对 
上 层 的 软件 提供 服务 。 这 个 分 布 式 操 作 系 统 有 时 也 称 为 分 布 式 中 间 件 ， 作 用 是 屏蔽 底层 
多 服务 器 的 差异 ， 使 得 上 层 软 件 程序 不 必 关 心底 层 到 底 有 多 少 服务 器 在 运行 ， 简 化 了 上 
层 软 件 程序 的 设计 和 实现 。 


图 3-21 运行 在 分 布 式 操作 系统 上 的 控制 器 软件 


下 面 详 细 介绍 分 布 式 操 作 系统 的 相关 概念 。 

1. 分 布 式 计 算 机 系统 和 分 布 式 操作 系统 

分 布 式 计算 机 系统 是 一 组 独立 的 计算 机 的 集合 ， 而 这 个 计算 机 集合 对 运行 在 它 上 面 
的 软件 程序 来 说 ， 就 像 一 台独 立 的 计算 机 一 样 。 为 了 简单 ， 后 文 也 把 分 布 式 计算 机 系统 
称 为 分 布 式 系统 或 者 分 布 式 集群 系统 。 这 里 独立 的 计算 机 通常 是 人 们 日 常 工作 中 见 到 的 
计算 机 系统 ， 比 如 一 个 独立 的 家 庭 PC 机 或 者 一 个 独立 的 服务 器 ， 或 者 是 一 个 独立 的 虚 
拟 机 ， 甚 至 可 能 是 一 部 手机 或 者 平板 电脑 。 这 里 的 独立 计算 机 系统 通常 是 以 一 个 操作 系 
统 为 界限 的 ， 比 如 运行 Linux 或 者 运行 Windows 的 系统 ， 算 是 一 个 独立 的 计算 机 系统 。 
不 能 把 一 个 CPU 或 者 一 个 CPU 的 一 个 内 核 作 为 划分 计算 机 系统 的 标准 。 现 代 计 算 机 操 
作 系 统 通 常 都 能 够 支持 多 核 、 多 CPU 架构 ， 而 对 外 仍然 表现 为 一 个 操作 系统 或 者 一 个 独立 
的 计算 机 系统 ， 在 这 个 操作 系统 上 面 的 应 用 程序 不 感知 具体 有 多 少 个 CPU 和 多 少 个 内 核 。 

分 布 式 计算 机 系统 包含 两 部 分 : 一 部 分 是 独立 的 计算 机 ， 包 含 计 算 机 硬件 和 上 面 运 
行 的 一 个 商用 操作 系统 (Linux) 的 计算 机 ; 另外 部 分 是 把 这 些 计算 机 组 成 一 个 系统 的 软 
件 程 序 ， 这 个 软件 程序 通常 称 为 分 布 式 系统 中 间 件 或 者 叫 作 分 布 式 操作 系统 。 一 组 独立 
的 计算 机 本 身 不 能 构成 分 布 式 系统 ， 甚 至 不 能 构成 系统 ， 只 有 这 些 独 立 的 计算 机 之 间 发 
生 了 关系 ， 它 们 才 构 成 了 系统 。 分 布 式 操 作 系 统 是 分 布 式 系统 的 一 种 实现 ， 这 个 分 布 式 
操作 系统 把 一 组 独立 的 计算 机 以 特定 的 方式 组 合成 一 个 分 布 式 系统 ， 并 使 得 上 层 的 应 用 
程序 并 不 感知 多 个 独立 的 计算 机 的 细节 ， 这 些 运行 在 分 布 式 操作 系统 上 的 应 用 程序 会 以 
为 它 自己 是 运行 在 一 台独 立 的 计算 机 上 ， 其 设计 和 运行 、 内 部 通信 都 是 和 独立 计算 机 上 
的 一 个 应 用 程序 相同 。 分 布 式 计算 机 系统 和 独立 计算 机 系统 的 原理 如 图 3-22 所 示 。 

分 布 式 计算 机 系统 独立 计算 机 系统 
图 3-22 分 布 式 计算 机 系统 和 独立 计算 机 系统 


下 面 再 看 一 下 整个 分 布 式 系统 的 运行 视图 ， 如 图 3-23 所 示 。 
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图 3-23 ”分布 式 系统 运行 视图 


分 布 式 系统 运行 视图 解释 了 实际 系统 运行 的 原理 。 首 先 ， 每 台 计算 机 都 会 连接 到 一 
个 可 以 通信 的 网 络 上 ， 这 是 构成 系统 的 物理 条 件 。 然 后 ， 在 每 台 计 算 上 启动 了 分 布 式 系 
统 中 间 件 进程 ， 这 些 分 布 式 系统 中 间 件 进程 互相 通信 ， 协 调和 管理 这 些 独 立 计算 机 的 资 
源 。 接 着 ， 这 个 分 布 式 系统 中 间 件 可 以 在 计算 机 1 上 启动 应 用 程序 A 的 进程 ， 在 计算 机 
2 和 计算 机 3 上 启动 应 用 程序 B 的 进程 E 和 进程 FE。 而 这 些 应 用 程序 进程 会 调用 分 布 式 
中 间 件 进程 提供 的 编 址 、 寻 址 、 通 信服 务 ， 这 样 ， 应 用 程序 B 的 两 个 进程 E 和 进程 F 其 
实 并 不 知道 各 自 的 具体 位 置 ， 它 们 之 间 是 通过 分 布 式 系统 中 间 件 提供 的 通信 地 址 进行 通 
信 的 。 分 布 式 系统 中 间 件 也 可 以 把 应 用 程序 的 进程 E 和 了 部 署 在 一 个 计算 机 2 上 ， 而 应 
用 程序 B 的 进程 E 和 进程 F 完全 不 感知 这 种 部 署 运行 位 置 的 变化 。 

另外 ， 在 理解 这 个 分 布 式 计算 机 系统 的 本 质 之 前 ， 还 希望 读者 有 一 个 基本 的 软件 程 
序 的 概念 。 通 常 的 软件 程序 可 以 分 为 单 进程 程序 和 多 进程 程序 。 单 进程 程序 通常 就 是 指 
操作 系统 (比如 Linux) 的 一 个 进程 ， 这 个 进程 是 不 能 再 进一步 地 进行 多 台 计 算 机 的 分 
布 式 部 署 的 。 所 以 分 布 式 计 算 机 系统 部 署 的 基本 单位 就 是 进程 。 关 于 进程 的 概念 ， 可 以 
参考 任何 一 本 操作 系统 书籍 中 的 介绍 。 上 面 应 用 程序 B 本 质 上 是 在 两 台 计 算 机 上 各 自 部 
署 了 一 个 进程 ， 比 如 应 用 程序 B 有 两 个 不 同 功能 的 进程 E 和 进程 rE， 并且 它们 要 交换 数 
据 ， 可 以 把 进程 E 和 进程 F 分 别 部 署 在 两 台 计 算 机 上 ， 也 可 以 部 署 在 同一 台 计 算 机 上 。 
但 是 无 论 怎么 部 署 ， 应 用 程序 B 都 不 需要 修改 一 行 代码 ， 应 用 程序 B 的 进程 E 和 进程 F 
的 通信 不 会 因为 它们 是 部 署 在 一 台 还 是 两 台 计 算 机 上 而 有 区 别 。 能 做 到 这 一 点 ， 正 是 因 
为 它们 是 通过 分 布 式 系统 中 间 件 提供 的 服务 来 完成 分 布 式 的 ， 使 得 它们 无 论 如 何 部 署 ， 
应 用 程序 B 的 进程 都 如 同 在 一 台 计 算 机 上 工作 和 交换 数据 一 样 。 

这 里 有 一 个 有 意思 的 问题 上面 说 应 用 程序 A 和 B 是 基于 分 布 式 系统 中 间 件 的 , 很 
多 人 对 这 里 的 “基于 ” 感 兴趣 : 什么 叫 一 个 软件 程序 〈 应 用 程序 ) 是 基于 另外 一 个 软件 
程序 〈 分 布 式 式 系统 中 间 件 也 是 一 个 软件 程序 ) ? 明明 看 起 来 都 是 对 等 的 计算 机 软件 进 
程 。 其 实 一 个 软件 是 基于 另外 一 个 软件 的 意思 是 : 一 个 软件 (应 用 程序 A 和 了 B) 在 运行 
时 必须 依赖 另外 一 个 软件 〈 分 布 式 系统 中 间 件 ) 的 存在 ， 或 者 说 依赖 于 这 个 软件 提供 的 
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服务 。 如 果 被 依赖 的 软件 〈 分 布 式 中 间 件 ) 不 存在 ， 那 么 这 个 软件 (应 用 程序 A 和 B) 
就 无 法 运行 。 因 为 它 依赖 那个 软件 提供 的 某 些 服务 无 法 获得 ， 而 相反 被 依赖 的 软件 却 完 
全 没有 任何 一 点 反 向 依赖 , 这 是 一 个 软件 基于 另外 一 个 软件 的 基本 概念 。 一 个 基于 Linux 
开发 的 应 用 程序 依赖 Linux， 可 以 说 Linux 应 用 程序 是 “基于 ”Linux 的 ; 一 个 Win7 上 
开发 的 程序 依赖 于 Win7, 可 以 说 Win7 应 用 程序 是 基于 Win7 的 ;一 个 JVM(Java machine， 
Java 虚拟 机 ) 里 面 开 发 的 Java 程序 依赖 于 JVM， 可 以 说 Java 程序 是 基于 JVM 的 。 但 是 
基于 某 个 软件 系统 开发 的 程序 ， 既 不 必须 和 那个 被 依赖 的 软件 系统 运行 在 相同 进程 ， 也 
不 必 使 用 相同 的 语言 开发 。 其 实 被 依赖 的 软件 系统 基础 服务 系统 ， 比 如 分 布 式 操 作 系 
统 、Linux、Win7) 通常 倒是 不 希望 应 用 程序 和 它们 上 自己 运行 在 同一 个 进程 ， 耦 合 在 一 
起 ， 尤 其 是 不 同 供应 商 时 ， 主 要 担心 应 用 进程 对 基础 服务 进程 的 影响 ， 比 如 对 安全 性 、 
稳定 性 等 的 影响 。 

如 果 希 望 基于 某 个 软件 系统 开发 应 用 程序 ， 是 希望 能 调用 这 个 软件 系统 提供 的 某 些 
有 价值 的 服务 。 而 这 个 提供 服务 的 软件 系统 本 身 也 是 一 个 软件 ， 在 设计 和 开发 这 个 软件 
的 时 候 ， 这 个 提供 服务 的 软件 系统 可 能 又 依赖 于 另外 一 些 更 为 基础 的 软件 系统 服务 。 一 
个 直观 的 例子 是 ， 在 Linux 上 面 开 发 了 一 个 服务 程序 ， 这 个 服务 程序 对 外 提供 了 一 个 特 
定 的 服务 ， 比 如 IPSEC 服务 ， 而 这 个 服务 对 外 提供 了 开放 的 调用 接口 。 此 时 服务 程序 是 
基于 Linux 开发 的 ， 会 依赖 Linux， 假 定 这 个 服务 程序 设计 开发 时 还 使 用 了 Java 的 一 个 
OSGI 框架 ， 但 是 使 用 这 个 IPSEC 服务 程序 的 应 用 程序 其 实 仅仅 关心 如 何 调用 IPSEC 服 
务 , 那么 这 个 基于 IPSEC 服务 构建 的 应 用 程序 就 不 一 定 非 要 基于 IPSEC 服务 程序 所 依赖 
的 Linux 系统 、JVM 和 OSGI 框架 。 通 常 上 面 的 应 用 程序 可 以 通过 标准 的 C/S 
(Client/Server) 架构 来 开发 应 用 程序 并 访问 所 需 IPSEC 服务 。 这 样 避免 了 应 用 程序 依赖 
具体 的 某 个 特定 基础 系统 和 编程 框架 而 带 来 日 后 的 可 移植 性 问题 。 所 以 ， 当 我 们 说 应 用 
程序 基于 某 个 系统 时 ， 是 指 在 设计 应 用 程序 架构 时 更 希望 基于 或 者 调用 这 个 系统 服务 ， 
而 不 是 基于 和 使 用 这 个 系统 服务 本 身 相 同 的 编程 框架 和 所 依赖 的 基础 系统 。 一 旦 应 用 程 
序 也 依赖 服务 提供 者 相同 的 基础 系统 和 编程 框架 ， 这 种 绑 定 关系 就 耦合 了 ， 因 为 应 用 程 
序 以 后 很 难 进行 跨 基础 系统 和 编程 框架 的 迁移 。 

有 不 少 人 问 什么 是 基于 开源 控制 器 ODL 开发 的 应 用 程序 ? 通常， 基于 开源 控制 器 
ODL 是 要 调用 ODL 提供 的 网 络 服务 ， 而 不 希望 使 用 ODL 的 相同 的 编程 框架 ， 比 如 
OSGIMD-SAL。 一 旦 一 个 应 用 程序 使 用 ODL 所 使 用 的 相同 编程 框架 开发 程序 ， 以 后 要 
是 想 迁 移 这 个 程序 到 另外 一 个 开源 平台 上 ， 就 基本 上 等 于 要 重新 设计 和 编写 代码 。 另 外 
一 个 问题 是 ， 如 果 ODL 的 基本 编程 框架 重 构 ， 那 么 这 些 应 用 程序 也 需要 修改 。 而 如 果 
仅仅 希望 使 用 ODL 提供 的 网 络 相 关 的 服务 ， 那 其 实 没 有 必要 非 依 赖 它 的 编程 框架 ， 依 
赖 它 同 样 编程 框架 反而 不 好 。 通 过 类 似 C/S 架构 调用 ODL 的 网 络 服务 就 可 以 了 。 

2. 分 布 式 计 算 机 系统 和 并 行 计算 

分 布 式 计算 机 系统 的 基本 概念 在 上 面 已 经 介绍 。 分 布 式 系 统 强 调 是 把 一 组 独立 的 计 
算 机 系统 组 合成 一 个 计算 机 系统 ， 其 本 身 提供 了 并 行 计算 的 能 力 。 在 图 3-22 中 ,可 以 看 
出 应 用 程序 B 的 进程 E 和 进程 了 是 并 行 计 算 的 , 因为 它们 本 身分 布 在 两 个 独立 的 计算 机 
系统 中 。 如 果 把 进程 E 和 进程 F 都 部 署 在 一 个 独立 的 计算 机 系统 中 ,它们 是 否 还 是 并 行 
的 呢 ? 从 计算 机 应 用 程序 E/F 角度 上 看 ， 它 们 依然 是 并 行 的 ， 因 为 它们 是 两 个 独立 的 进 
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程 ， 可 以 独立 运行 。 但 是 对 于 下 面 不 同 的 计算 底层 硬件 ， 这 个 概念 会 有 所 变化 。 假 定 运 
行进 程 E 和 进程 F 的 计算 机 仅仅 有 一 个 内 核 的 CPU， 就 是 说 CPU 任何 时 刻 只 能 执行 一 
条 指令 ， 那 么 在 硬件 层面 ， 两 个 进程 实际 上 是 串 行 执行 ， 进 程 E 执行 指令 然后 进程 F 执 
行 指令 或 者 相反 。 硬 件 执行 机 构 不 能 同时 执行 两 条 指令 ， 就 是 说 在 应 用 程序 看 来 是 并 行 
的 ， 但 是 在 硬件 执行 机 构 可 能 是 串 行 的 。 如 果 CPU 有 两 个 内 核 ， 这 两 个 内 核 可 以 独立 并 
行 同 时 执行 指令 序列 ， 那 么 操作 系统 可 以 做 出 这 样 的 安排 ， 就 是 让 进程 E 在 一 个 内 核 上 
执行 ， 进 程 F 在 另外 一 个 内 核 上 执行 ， 这 样 它 们 在 硬件 执行 上 也 是 并 行 ， 于 是 进程 E/F 
就 是 真正 地 并 行 执行 了 。 这 样 ， 分 布 式 计算 机 系统 能 够 提供 并 行 计算 能 力 。 并 行 计算 不 
一 定 需 要 分 布 式 计算 机 系统 ， 一 个 独立 的 计算 机 系统 也 可 以 提供 并 行 计算 能 力 。 

当然 ， 上 面 分 析 的 并 行 执行 问题 ， 说 的 是 进程 ， 而 实际 上 ， 在 主流 的 现代 操作 系统 
中 ， 一 个 进程 内 部 可 以 有 多 个 线程 ， 操 作 系统 真正 执行 的 是 线程 代码 ， 也 就 是 说 在 一 个 
进程 内 的 多 个 线程 是 并 行 执行 的 。 从 软件 程序 角度 看 ， 这 些 线程 都 以 为 自己 独占 CPU， 
整体 看 起 来 每 个 线程 都 在 并 行 执行 , 而 操作 系统 根据 CPU 内 核 数 量 , 会 进行 一 定 的 运行 
调度 ， 比 如 可 能 使 每 个 线程 对 应 一 个 内 核 ， 也 可 能 使 一 个 CPU 内 核 执 行 多 个 线程 。 当 每 
个 CPU 内 核 都 执行 一 个 线程 时 ， 这些 线 程 是 完全 并 行 的 ， 就 是 某 一 个 时 刻 ， 两 个 线程 的 
外 令 是 同时 被 执行 的 。 而 如 果 一 个 内 核 执行 多 个 线程 指令 ， 那 么 在 某 个 时 刻 上 ， 这 个 内 
核 只 执行 某 个 线程 的 指令 ， 这 些 线程 的 指令 执行 就 不 是 并 行 的 ， 本 质 上 是 串 行 的 ， 但 在 
一 个 大 的 时 间 尺 度 上 看 ， 这 两 个 在 同一 个 内 核 运 行 的 线程 也 可 以 看 作 是 并 行 的 。 

上 面 讨论 的 并 行 还 有 一 个 问题 ， 如 果 两 个 并 行 线程 之 间 没 有 任何 直接 或 者 间接 的 数 
据 交 互 ， 那 么 它们 之 间 当 然 就 是 完全 可 以 并 行 的 ， 但 如 果 线 程 之 间 存 在 数据 依赖 或 者 状 
态 依 赖 ， 那 么 它们 之 间 在 执行 过 程 中 就 必须 采用 同步 机 制 。 一 旦 采用 同步 机 制 ， 这 两 个 
线程 就 不 会 那么 流畅 地 总 是 并 行 执 行 ， 其 中 一 个 线程 可 能 需要 等 待 男 外 一 个 线程 的 一 些 
数据 或 者 事件 ， 这 样 这 个 线程 就 会 挂 起 等 待 。 所 以 计算 机 系统 提供 了 并 行 执行 的 基本 能 
力 ， 包 括 多 核 CU、 多 CPU、 多 计算 机 系统 ， 其 中 多 核 CPU 和 多 CPU 可 以 有 单个 操作 
系统 (比如 Linux) 来 提供 并 行 执行 能 力 ， 而 多 计算 机 的 分 布 式 计算 机 系统 通常 由 分 布 
式 系统 中 间 件 提供 并 行 执行 能 力 。 当 然 ， 提 供 了 并 行 能 力 并 不 意味 着 应 用 程序 就 可 以 真 
的 并 行 执行 ， 还 取决 于 应 用 程序 本 身 所 完成 的 业务 是 否 能 够 真正 并 行 。 

独立 的 计算 机 系统 也 能 够 提供 并 行 计算 ， 那 为 什么 需要 分 布 式 计算 机 系统 呢 ? 主要 
是 性 能 问题 。 当 有 大 量 数据 要 处 理 ， 并 且 需 要 在 指定 的 时 间 内 处 理 完 成 时 ， 一 台独 立 的 
计算 机 处 理 起 来 几乎 无 法 完成 。 在 某 些 情况 下 ， 确 实 通过 提高 CPU 的 主 频 或 者 甚至 采用 
专用 计算 机 加 速 部 件 ， 能 够 提升 一 台 计 算 机 的 计算 处 理性 能 ， 这 种 做 法 我 们 叫 作 
SCALE-UP。 但 是 这 种 方法 总 是 有 上 限 的 ， 而 且 对 于 大 部 分 应 用 系统 来 说 ， 这 个 上 限 很 
容易 就 达到 。 比 如 ， 现 在 互联 网 社交 系统 、 电 子 商 务 系统 、 新 闻 系 统 、 大 数据 处 理 系统 
等 ， 都 不 是 通过 SCALE-UP 能 够 解决 的 ， 必 须 使 用 另外 一 种 方式 ， 通 过 增加 更 多 普通 计 
算 机 系统 〈 比 如 通用 服务 器 ) 来 快速 完成 更 多 工作 ， 这 种 方法 称 为 SCALE-OUT。 就 如 
同一 个 人 再 能 干 ， 也 无 法 和 很 多 人 一 起 干 来 得 快 ， 比 如 搬运 箱子 ， 一 个 人 一 次 只 能 搬运 
一 个 50kg 的 箱子 ， 有 一 个 人 特别 厉害 ， 可 以 一 次 搬运 3 个 这 样 的 箱子 ， 效 率 提升 了 2 
倍 。 但 是 如 果 多 雇佣 一 些 人 ， 同 时 搬运 箱子 ， 比 如 100 个 人 ， 那 一 次 就 搬运 100 个 箱子 ， 
同样 时 间 内 效率 是 只 用 一 个 人 搬运 箱子 的 100 倍 ， 分 布 式 系统 提升 性 能 就 是 这 个 原理 。 
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当然 这 样 做 人 力 成 本 也 上 升 了 100 倍 。 幸 运 的 是 ， 增 加 一 台 服 务 器 的 成 本 比 多 雇佣 一 个 
人 要 低 得 多 ， 所 以 SACLE-OUT 方法 是 可 行 的 。 

当然 ， 使 用 分 布 式 系统 还 有 一 个 原因 ， 就 是 通用 服务 器 集群 后 的 性 价 比 远 远 比 一 个 
专用 的 高 性 能 大 型 计算 机 要 高 得 多 。 传 统 的 一 些 大 型 机 价格 非常 昂贵 ， 需 要 专门 的 维护 
费用 ， 部 件 替 换 也 不 容易 ， 用 户 容易 被 锁定 。 而 通用 服务 器 集群 系统 的 服务 器 供应 商 很 
多 ， 市 场 容量 非常 大 ， 这 样 使 得 通用 服务 器 的 价格 便宜 ， 可 替代 性 强 ， 配 件 和 整 机 替换 
都 非常 简单 易 行 ， 这 样 使 得 越 来 越 多 的 大 规模 数据 处 理 系统 几乎 都 在 采用 通用 服务 器 集 
群 架构 ， 而 不 是 专用 的 大 型 机 。 互 联网 厂家 几乎 都 是 采用 通用 服务 器 集群 ， 现 在 只 有 少 
数 银行 系统 还 没有 采用 通用 服务 器 集群 ， 但 是 未 来 肯定 也 都 会 逐步 走向 通用 服务 器 集群 
的 分 布 式 系统 架构 。 

总 结 起 来 ， 就 是 分 布 式 系统 是 并 行 的 系统 ， 而 并 行 也 可 以 不 用 分 布 式 系统 ， 可 以 在 
一 个 独立 的 计算 机 内 进行 多 线程 或 者 多 进程 并 行 。 但 是 其 实现 性 能 的 上 限 则 是 受到 单个 
计算 机 能 力 的 限制 ， 而 分 布 式 系统 的 并 行 则 可 以 几乎 无 限制 地 扩展 ， 解 决 大 规模 并 行 计 
算 问 题 。 

3. 分 布 式 操作 系统 的 功能 

分 布 式 操作 系统 需要 完成 的 主要 功能 就 是 把 多 个 计算 机 系统 资源 组 织 在 一 起 ， 并 对 
外 提供 统一 的 单个 的 计算 机 服务 ， 让 运行 在 其 上 的 应 用 程序 能 够 像 一 个 单个 的 计算 机 应 
用 程序 一 样 工 作 。 从 另外 一 个 角度 上 ， 分 布 式 操作 系统 还 需要 对 系统 周边 通信 实体 提供 
透明 性 ， 使 得 其 他 通信 系统 也 不 感知 分 布 式 计算 机 系统 是 由 多 人 台 计 算 机 构成 的 事实 。 分 
布 式 计算 机 系统 对 外 表现 为 一 台 计 算 机 的 基本 示意 如 图 3-24 所 示 。 


分 布 式 计 算 机 系统 


图 3-24 分布 式 计算 机 系统 对 外 表现 为 一 台 计 算 机 


(1) 分 布 式 操作 系统 对 外 提供 的 UNI-IP 服务 

分 布 式 计 算 机 系统 要 对 周边 通信 实体 表现 为 一 台 计 算 机 ， 需 要 对 其 他 通信 实体 屏蔽 

台 计 算 机 的 细节 ， 这 些 通 信 实 体 包 括 系统 的 管理 程序 、 系 统 周边 的 协议 邻居 等 。 为 了 
达到 这 样 的 目的 ， 最 重要 的 是 分 布 式 操作 系统 需要 支持 两 个 功能 : 一 个 是 要 对 外 提供 一 
个 连接 卫 地 址 , 而 不 使 其 他 邻居 感知 到 具体 的 服务 器 地 址 ; 另外 一 个 功能 是 要 支持 分 布 
式 计算 机 系统 的 故障 透明 性 ， 也 就 是 说 分 布 式 系统 中 任何 一 个 计算 机 出 现 故障 ， 都 不 应 
该 让 邻居 感知 这 个 事实 。 

第 一 个 功能 , 关于 分 布 式 系统 对 外 暴露 一 个 IP 地 址 的 技术 , 这 里 称 为 UNI-IP 技术 。 
下 面 以 控制 器 的 分 布 式 系统 和 转发 器 之 间 的 通信 来 说 明 这 个 技术 。 

一 个 良好 的 分 布 式 系统 的 架构 设计 ， 需 要 对 外 部 周边 邻居 屏蔽 这 个 分 布 式 系统 内 部 
的 多 服务 器 的 细节 ， 让 外 部 不 感知 内 部 有 多 少 服 务 器 以 及 它们 的 位 置 ， 否 则 当 需 要 增加 
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服务 器 或 者 减少 服务 器 的 时 候 ， 需 要 对 周边 邻居 进行 配置 调整 ， 比 如 如 果 把 分 布 式 系统 
的 每 个 服务 器 的 人 P 地 址 都 暴露 给 外 部 , 那么 当 某 个 服务 器 离线 或 者 离开 系统 时 ， 周 边 和 
这 个 IP 进行 连接 的 设备 就 会 受到 影响 。 分 布 式 系统 暴露 多 服务 器 细节 的 情况 如 图 3-25 
所 示 。 


分 布 式 控制 器 系统 





图 3-25 分布 式 系 统 暴 露 多 服务 器 细节 


假设 服务 器 3 因为 某 种 原因 离开 了 和 集群， 那么 转发 器 3 将 受到 影响 。 而 如 果 把 整个 
集群 都 只 暴露 一 个 服务 IP 地 址 (UNI-IP 技术 ) 时 ， 那 么 这 个 分 布 式 系统 的 接 入 卫 就 仅 
仅 有 一 个 ， 如 图 3-26 所 示 。 


分 布 式 控制 器 系统 
服务 器 2 


分 布 式 
路 由 功能 


IP=ET.L1 





图 3-26 UNI-IP 分 布 式 控制 器 系统 


分 布 式 集群 对 外 暴露 一 个 耳 ， 这 样 内 部 服务 器 状态 和 数量 的 变化 ， 外 部 邻居 不 用 感 
知 。 这 需要 分 布 式 操作 系统 实现 一 个 分 布 式 路 由 功能 来 把 邻居 进入 的 报 文 分 发 给 正确 的 
服务 器 。 也 就 是 说 ， 报 文 可 以 从 任何 一 个 服务 器 的 接口 进入 控制 器 集群 ， 控 制 器 的 分 布 
式 操 作 系统 会 根据 报 文 的 处 理 组 件 分 布 位 置 自动 路 由 给 对 应 的 服务 器 。 但 是 考虑 到 实际 
的 组 网 ， 由 于 这 些 服 务 器 暴露 相同 的 IP 地 址 ,那么 这 些 服务 器 的 三 层 路 由 网 关 如 何 把 报 
文 送 给 这 个 人 PP 地 址 呢 ? 比如 网 关 发 送 一 个 ARP 请 求 ， 这 些 服务 器 谁 来 应 答 ? 当然 ， 可 
以 让 这 些 服务 器 的 其 中 一 台 ， 比 如 服务 器 1 进行 应 答 ， 那 么 报 文 就 相当 于 都 送 交 给 了 服 
务 器 1。 服 务 器 1 利用 分 布 式 中 间 件 来 把 报 文 转发 给 集群 内 部 的 真正 处 理 这 个 报 文 的 服 
务 器 。 此 时 这 个 服务 器 1 实际 上 是 系统 的 一 个 负载 均衡 器 。 

另外 一 个 方法 是 ， 在 这 些 服务 器 前 面额 外 增加 一 个 专用 的 负载 均衡 器 进行 报 文 分 
发 ， 使 得 进入 系统 的 报 文 能 够 真正 地 分 发 给 多 个 服务 器 并 行 处 理 ， 那 么 分 布 式 系统 的 组 
网 就 变 为 如 图 3-27 所 示 。 
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3-27 ” 带 均衡 器 的 分 布 式 组 网 


像 上 面 这样 ， 整 个 分 布 式 系统 的 主机 并 行 收发 设计 就 完成 了 。 多 服务 器 并 行 发 送 不 
是 问题 ， 因 为 它们 可 以 直接 通过 本 地 网 口 发 送 报 文 。 图 3-27 中 的 负载 均衡 器 可 以 内 置 在 
分 布 式 集群 中 ， 作 为 分 布 式 操作 系统 的 一 个 部 件 ， 也 可 以 独立 部 署 。 如 果 独 立 部 署 一 个 
专用 的 负载 均衡 器 ， 这 个 负载 均衡 器 的 报 文 分 发 规则 不 能 采用 常规 的 HASH 算法 进行 分 
发 ， 而 是 需要 控制 器 根据 自己 内 部 的 处 理 实例 的 部 署 位 置 来 控制 负载 均衡 器 根据 报 文 源 
地 址 进行 分 发 ， 比 如 控制 器 把 一 个 转发 器 1 (比如 IP=1.1.89.12) 的 报 文 处 理 放 在 了 服务 
器 2〈 比 如 内 部 了 P=10.9.8.9) 处 理 ， 那 么 控制 器 需要 告诉 负载 均衡 器 ， 也 就 是 下 发 一 个 
策略 给 负载 均衡 器 ， 通 知 它 源 地 址 为 转发 器 1 的 IP=1.1.89.12 的 报 文 ， 需 要 分 发 给 目的 
IP=10.9.8.9 的 服务 器 2。 即 使 部 署 了 专用 负载 均衡 器 ， 有 时 候 仍然 需要 分 布 式 操作 系统 
提供 内 部 路 由 功能 ， 因 为 有 一 些 报 文 可 能 在 控制 器 还 没有 给 负载 均衡 器 下 发 策略 时 就 已 
经 开始 发 起 通信 ， 所 以 控制 器 需要 给 负载 均衡 器 配置 一 个 默认 的 转发 服务 器 ， 这 些 报 文 
的 处 理 可 能 仍然 需要 在 控制 器 内 部 进行 一 次 路 由 分 发 ， 所 以 分 布 式 操作 系统 提供 内 部 分 
布 式 路 由 的 转发 功能 通常 是 必须 的 。 

这 种 UNI-IP 技术 实现 后 ， 分 布 式 系 统 对 外 可 以 暴露 一 个 IP 地 址 ， 并 可 以 充分 利用 
这 些 服务 器 的 接口 进行 并 行 主机 收发 ， 提 高 整个 分 布 式 集群 系统 的 报 文 处 理 能 

故障 透明 性 是 指 当 分 布 式 系统 中 的 某 些 计算 出 现 故 障 时 ， 这 种 故障 不 应 该 让 周边 邻 
居 感 知 。 为 了 实现 这 样 的 目的 ， 需 要 分 布 式 系统 中 间 件 和 应 用 程序 配合 来 完成 。 通 常 的 
分 布 式 中 间 件 会 提供 系统 监控 和 HA (高 可 靠 性 功能， 而 应 用 程序 则 需要 完成 通信 协 
议 数 据 和 状态 的 备份 。 当 分 布 式 系统 中 间 件 的 HA 功能 检测 到 某 个 服务 器 崩溃 时 ， 它 会 
对 系统 进行 恢复 。 在 传统 网 络 设备 中 的 故障 恢复 有 NSR 和 NSF 技术 两 种 技术 。NSR 技 
术 能 够 达到 系统 故障 倒 换 时 ， 周 边 协议 邻居 不 感知 ; 而 NSF 技术 需要 周边 邻居 配合 
能 完成 系统 倒 换 过 程 中 的 转发 业务 不 间断 。 

(2) 分 布 式 操作 系统 对 其 上 应 用 程序 提供 的 服务 

分 布 式 操作 系统 为 上 层 应 用 程序 提供 屏蔽 底层 多 台 服 务 器 的 功能 ， 使 得 应 用 程序 可 
以 不 感知 底层 多 服务 器 的 存在 。 对 于 一 个 应 用 程序 到 底 该 在 多 台 服 务 器 的 哪 一 台 上 启动 
合适 ? 这 个 应 用 程序 状态 是 否 正常 呢 ? 如 果 出 现 故 障 ， 该 如 何 处 理 ? 这 些 都 属于 应 用 程 
序 生命 周期 管理 。 只 有 把 生命 周期 管理 由 分 布 式 中 间 件 接管 ， 才 能 使 应 用 程序 可 以 如 同 
在 一 台 服 务 器 中 运行 一 样 。 分 布 式 操作 系统 有 如 下 几 点 功能 
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第 一 ， 分 布 式 操作 系统 需要 提供 应 用 程序 的 部 署 管理 ， 并 监控 所 有 应 用 程序 的 运行 
状态 。 监 控 应 用 程序 的 状态 主要 是 为 了 解决 可 靠 性 问题 ， 当 监控 到 应 用 程序 故障 时 ， 可 
以 及 时 地 进行 主 备 应 用 程序 的 倒 换 ， 使 得 系统 可 以 继续 工作 。 

第 二 ， 分 布 式 操作 系统 需要 提供 分 布 式 通信 和 服务， 因为 分 布 式 应 用 程序 之 间 和 内 部 
功能 部 件 之 间 需 要 进行 通信 。 这 个 通信 不 能 因为 运行 计算 机 系统 的 个 数 、 种 类 、 位 置 而 
不 断 调整 ， 而 是 提供 一 种 统一 的 通信 方式 ， 使 得 这 些 分 布 式 应 用 程序 就 如 同 运行 在 一 台 
计算 机 上 面 一 样 进行 通信 ， 而 不 用 关心 计算 机 个 数 以 及 通信 对 方 的 位 置 细节 。 它 只 要 调 
用 分 布 式 中 间 件 提供 的 统一 的 通信 服务 就 能 够 完成 相互 之 间 的 通信 任务 。 分 布 式 中 间 件 
之 所 以 能 够 完成 这 样 的 任务 ， 是 因为 运行 在 上 面 的 应 用 程序 的 部 署 都 是 由 它 完成 的 ， 所 
以 分 布 式 中 间 件 可 以 建立 一 套 逻 辑 编 址 机 制 , 使 得 应 用 程序 之 间 采 用 逻辑 地 址 进行 通信 ， 
而 分 布 式 中 间 件 负责 把 逻辑 地 址 映射 为 物理 地 址 ， 比 如 计算 机 节点 、 进 程 、 线 程 等 信息 ， 
以 完成 通信 过 程 。 这 样 分 布 式 中 间 件 就 需要 提供 一 套 服 务 编 址 和 寻 址 功能 ， 应 用 程序 需 
要 找到 一 个 具体 的 服务 , 那么 这 个 应 用 程序 需要 向 分 布 式 系统 中 间 件 发 起 一 个 服务 请 求 ， 
以 便 获 得 提供 这 个 服务 的 程序 地 址 ， 然 后 就 可 以 向 这 个 服务 地 址 发 起 通信 ， 以 便 获 得 相 
应 的 服务 了 。 

第 三 ， 分 布 式 操作 系统 需要 处 理应 用 程序 的 数据 配置 服务 。 一 个 分 布 式 系统 内 部 的 
应 用 程序 在 运行 时 ， 都 需要 进行 一 些 行为 调整 ， 通 常 是 通过 提供 配置 手段 来 完成 这 些 程 
序 行为 的 调整 。 这 些 配置 手段 包括 人 机 界面 和 机 机 界面 ， 比 如 典型 的 配置 手段 可 以 通过 
TELNET 协议 或 者 NETCONF 协议 等 进行 系统 的 配置 。 那 么 这 个 分 布 式 中 间 件 要 提供 一 
种 统一 的 方式 为 应 用 程序 提供 配置 数据 的 能 力 ， 无 论 这 些 应 用 程序 部 署 在 分 布 式 系统 中 
的 哪个 地 方 ， 配 置 数据 都 能 够 送 给 指定 的 应 用 程序 ， 使 得 这 些 应 用 程序 可 以 根据 这 些 配 
置 数据 进行 后 续 的 相关 行为 的 调整 工作 。 

第 四 ， 为 了 分 布 式 应 用 程序 的 便利 ， 通 常 的 分 布 式 操作 系统 还 提供 分 布 式 数据 库存 
储 服务 。 这 种 分 布 式 数据 存储 服务 需要 对 应 用 程序 提供 数据 访问 透明 性 ， 应 用 程序 只 需 
要 调用 数据 访问 接口 ， 而 不 必 关 心 数 据 的 存储 位 置 和 形式 以 及 副本 的 个 数 。 

第 五 ， 分 布 式 操作 系统 还 需要 对 应 用 程序 提供 故障 透明 性 。 在 解释 这 一 点 前 ， 先 介 
绍 一 下 分 布 式 系统 的 基本 可 靠 性 机 制 。 系 统 可 靠 性 问题 主要 是 通过 宛 余 来 解决 的 。 通 过 
分 析 系 统 的 故障 模式 ， 针 对 易于 失效 的 部 件 进 行 元 余 保 护 ， 当 失效 部 件 出 现 故障 时 ， 系 
统 会 执行 主 备 部 件 倒 换 ， 备 用 部 件 会 接替 主 用 部 件 工作 ， 使 得 系统 能 够 持续 服务 。 在 分 
布 式 系统 中 ， 易 于 失效 的 部 件 包 括 服务 器 本 身 以 及 软件 程序 故障 ， 服 务 器 故障 通常 是 整 
个 服务 器 崩 江 、 掉 电 等 ， 软 件 故 障 则 通常 是 进程 异常 、 进 程 骨 演 等 。 那 么 分 布 式 系 统 的 

台 计 算 机 通常 就 会 有 一 部 分 计算 机 是 用 于 备份 其 他 计算 机 的 。 备 份 方 式 可 以 有 两 种 模 
式 : 一 种 模式 是 一 台 主 用 计算 机 ， 同 时 配备 一 台 备 用 计算 机 ， 上 面 运行 的 应 用 程序 部 件 
互 为 主 备 ;另外 一 种 模式 是 两 台 计算 机 互 为 主 备 ， 每 台 计 算 机 都 运行 主 用 进程 ， 同 时 提 
供 另 外 一 台 计 算 机 的 备用 进程 。 两 种 模式 如 图 3-28 所 示 。 

这 两 种 模式 从 另外 一 个 角度 看 ， 其 实 是 一 种 模式 ， 就 是 基于 进程 的 备份 模式 。 所 谓 
故障 透明 性 是 指 ， 如 果 应 用 程序 A 和 应 用 程序 B 在 通信 ， 而 如 果 应 用 程序 B 骨 溃 了 ， 
备份 的 应 用 程序 B 就 会 接替 工作 ， 但 是 应 用 程序 A 要 能 够 继续 用 原来 应 用 程序 B 的 通 
信 地 址 进行 通信 ， 尽 管 应 用 程序 B 的 物理 通信 地 址 因为 进程 倒 换 已 经 发 生变 化 了 。 分 布 
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式 操作 系统 需要 提供 这 种 故障 透明 性 功能 。 





分 布 式 计算 机 系统 | 分 布 式 计算 机 系统 
TY 
分 布 式 操作 系统 进程 | | 分 布 式 操作 系统 进程 
计算 机 操作 系统 计算 机 操作 系统 计算 机 操作 系统 
计算 机 硬件 计算 机 硬件 计算 机 硬件 计算 机 硬件 
主 用 备用 主 用 主 用 


主 备 备份 模式 主 主 备份 模式 
图 3-28 分 布 式 系统 备份 模式 


第 六 ， 分 布 式 操作 系统 需要 为 上 层 应 用 程序 提供 统一 的 分 布 式 协议 栈 功 能 。 这 个 功 
能 能 够 让 分 布 式 应 用 程序 在 任何 位 置 都 可 以 调用 和 单个 计算 机 相同 的 协议 栈 功 能 ， 以 便 
和 外 部 实体 进行 通信 。 而 结合 前 面 介绍 的 UNI-IP 技术 , 由 于 所 有 这 些 应 用 程序 可 能 使 用 
的 是 相同 的 IP 地 址 作为 通信 地 址 , 所 以 分 布 式 协议 栈 需 要 能 够 完成 分 布 式 系统 内 部 的 报 
文 路 由 功能 ， 以 便 把 报 文 路 由 到 正确 的 应 用 程序 。 

第 七 ， 分 布 式 操作 系统 当然 还 需要 管理 自己 的 集群 系统 ， 这 是 基本 功能 。 这 个 集群 
中 包含 很 多 独立 的 计算 机 ， 分 布 式 操作 系统 必须 监控 管理 集群 成 员 、 监 控 成 员 状 态 、 管 
理 成 员 资源 。 集 群 管理 也 是 一 个 软件 程序 ， 这 个 程序 通常 部 署 在 集群 的 一 台 计 算 机 上 ， 
那么 到 底部 署 在 哪 台 计算 机 上 呢 ? 如 果 该 计算 机 发 生 故 障 又 该 如 何 处 理 呢 ? 分 布 式 操作 
系统 的 集群 管理 软件 中 有 一 个 选举 程序 ， 负 责 选举 出 一 个 集群 主 计 算 机 ， 该 计算 机 运行 
集群 管理 程序 ， 如 果 该 计算 机 崩溃 ， 选 举 算法 会 重新 选举 出 新 的 集群 主 计算 机 。 为 了 保 
证 集群 系统 正常 工作 , 集群 主 通 常会 预先 指定 或 者 选举 算法 选 出 产生 备用 集群 主 计算 机 ， 
这 样 它们 之 间 可 以 进行 必要 的 数据 备份 ， 以 保证 系统 故障 倒 换 后 系统 数据 得 以 恢复 。 


3.3.4 网络 操作 系统 、 分 布 式 操作 系统 和 控制 器 


其 实 分 布 式 操作 系统 软件 是 一 个 通用 软件 程序 ， 它 解决 的 问题 是 如 何 把 多 台独 立 计 
算 机 组 合成 一 个 独立 虚拟 计算 机 。 在 这 个 分 布 式 软件 系统 上 ， 可 以 编写 任何 分 布 式 软件 
程序 ， 比 如 社交 程序 、 电 子 商 务 、 游 戏 等 。 控 制 器 软件 不 过 是 它们 中 的 一 个 软件 而 已 。 
也 就 是 说 分 布 式 操作 系统 和 通用 计算 机 操作 系统 类 似 ， 不 是 特别 为 某 个 程序 设计 的 ， 不 
像 网 络 操作 系统 是 针对 网 络 设计 的 。 网 络 操作 系统 的 运行 是 需要 一 个 分 布 式 操作 系统 支 
持 的 。 而 现在 很 遗憾 的 是 ， 在 工业 界 分 布 式 操作 系统 并 没有 像 计 算 机 系统 那样 收敛 到 主 
流 的 系统 不 过 两 三 家 : 微软 的 Windows、 苹 果 的 MAC OS、 开 源 的 Linux， 现 在 分 布 式 
操作 系统 还 是 各 家 用 各 家 的 。 网 络 操作 系统 也 是 一 样 的 情况 ， 目 前 有 多 种 网 络 操作 系统 
存在 。 如 果 未 来 分 布 式 操作 系统 和 网 络 操作 系统 能 够 收敛 ， 那 对 于 产业 来 说 是 非常 有 利 
的 。 这 也 就 是 说 ， 网 络 操作 系统 交付 厂家 必须 自己 研发 自己 的 分 布 式 操作 系统 ， 这 样 整 
个 控制 器 的 软件 交付 范围 就 包括 三 个 大 部 分 : 分 布 式 操作 系统 、 网 络 操作 系统 和 网 络 业 
务 应 用 程序 。 把 图 3-21 的 范围 做 适当 修改 ， 可 以 得 出 图 3-29 的 架构 。 
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控制 器 系统 的 范围 增加 了 分 布 式 操 
作 系 统 部 分 。 正 如 前 面 讨 论 的 ， 关 于 服务 
器 硬件 和 服务 器 OS， 客 户 可 以 自行 采 
购 。 当 然 ， 控 制 器 软件 系统 对 服务 器 OS 
是 有 一 定 要 求 的 , 比如 有 的 厂家 支持 某 个 
版 本 的 Linux， 有 的 三家 支持 某 个 版 本 的 
Windows Server。 那 么 客户 自行 采购 就 要 
注意 和 控制 器 软件 系统 的 配套 。 当 然 一 些 厂 家 更 愿意 同时 提供 集成 服务 一 一 集成 服务 器 
OS 和 服务 器 硬件 ， 形 成 一 个 完整 的 产品 交付 给 客户 。 这 样 做 在 安全 方面 和 维护 责任 等 
方面 对 客户 都 是 有 益 的 。 

上 面 讨论 了 网 络 操作 系统 、 分 布 式 操作 系统 和 控制 器 的 关系 ， 接 下 来 把 几 个 操作 系 
统 的 概念 进行 一 个 对 比 ， 希 望 读者 能 够 认识 它们 之 间 的 关系 〈 如 图 3-30 所 示 )。 


廊 沦 怠 建 湾 





图 3-29 ”控制 器 软件 系统 范围 







各 种 应 用 程序 ， 比 如 
办 公 软 件 / 分 布 式 
中 间 件 程序 


桌面 / 服务 器 OS 分 布 式 OS 网 络 操作 系统 
图 3-30 服务 器 OS、 分 布 式 操作 系统 、 网 络 操 作 系 统 的 关系 


其 中 服务 器 OS 的 作用 是 屏蔽 底层 服务 器 的 硬件 细节 ， 对 上 提供 统一 的 抽象 资源 调 
用 ; 分 布 式 OS 是 屏蔽 底层 多 服务 器 的 细节 ， 对 上 提供 一 台独 立 的 计算 机 服务 ， 网 络 操 
作 系 统 屏蔽 底层 多 转发 器 的 差异 ， 对 上 提供 统一 的 抽象 网 络 资源 服务 。 控 制 器 软件 则 是 
一 个 分 布 式 软件 系统 ， 通 常 包 括 分 布 式 操作 系统 、 网 络 操作 系统 以 及 上 面 的 网 络 业务 应 
用 程序 。 


3.4 ”控制 器 实现 技术 


3.4.1 ”控制 器 分 布 式 实现 技术 


前 面 讨论 了 控制 器 的 三 个 组 成 部 分 分布 式 操作 系统 、 网 络 操作 系统 、 网 络 业务 应 
用 程序 ， 其 中 分 布 式 操作 系统 是 为 分 布 式 系统 提供 基础 服务 的 ， 屏 珊 了 底层 多 服务 器 的 
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细节 ， 使 上 面 的 网 络 操作 系统 软件 和 网 络 业 务 应 用 程序 可 以 像 在 一 台 计 算 上 运行 。 但 是 
对 于 一 个 特定 领域 的 需求 ， 如 何 进行 分 布 式 设计 ， 通 常 是 和 特定 的 业务 领域 相关 的 。 本 
节 将 介绍 控制 器 的 网 络 操作 系统 和 网 络 业 务 应 用 程序 的 分 布 式 实现 中 的 一 些 技术 。 

1， 垂直 分 布 式 和 水 平分 布 式 

先 介绍 一 下 分 布 式 的 两 个 基本 方式 : 垂直 分 布 式 和 水 平分 布 式 。 以 一 个 大 型 Web 网 
站 为 例 介绍 ， 其 原理 如 图 3-31 所 示 。 








相同 功能 实例 
集群 


Web Server 
Web Server 
Web server 








不 同 功能 分 布 式 部 署 


图 3-31 大 型 网 站 分 布 式 系统 


图 3-31 所 示 是 一 个 大 型 网 站 的 典型 分 布 式 架构 ， 其 中 包括 不 同 功 能 ， 比 如 接 入 前 端 
的 Web server 功能 ， 中 间 的 Cache 功能 、APP 功能 ， 后 台 的 DB (数据 库 ) 功能 。 把 不 
同 的 功能 部 署 在 不 同 的 计算 机 系统 中 ， 使 得 这 些 功 能 能 够 被 并 行 处 理 ， 这 种 做 法 称 为 垂 
直 分 布 式 。 这 种 分 布 式 特征 是 按照 不 同 的 功能 进行 分 布 式 的 。 另 外 一 个 方面 ， 每 个 相同 
的 功能 ， 比 如 APP 或 者 Cache， 又 部 署 在 不 同 的 计算 机 中 ， 构 成 一 个 集群 ， 这 种 系统 功 
能 的 分 布 式 部 署 ， 称 为 水 平分 布 式 〈 如 图 3-32 所 示 )。 在 一 个 大 型 分 布 式 应 用 系统 中 ， 
通常 会 使 用 到 这 两 种 分 布 式 。 





计算 机 1 计算 机 2 计算 机 n 
图 3-32 ”水 平分 布 式 系 
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图 3-22 所 示 的 架构 ， 在 每 个 计算 机 内 部 署 的 功能 都 是 一 样 的 ， 是 一 种 水 平分 布 式 。 
这 种 架构 存在 一 个 问题 ， 各 个 功能 部 件 在 实际 的 业务 过 程 中 ， 它 们 内 部 的 功能 分 布 式 要 
求 不 同 。 比 如 , 在 一 个 侧重 计算 的 大 型 分 布 式 系统 中 , DB 的 处 理 可 能 需要 10 台 计 算 机 ， 
APP 计算 可 能 需要 50 台 计 算 机 资源 ， 而 Web 服务 器 可 能 只 要 20 台 计 算 机 。 那 么 上 面 的 
这 个 架构 就 不 能 灵活 地 根据 哪个 功能 部 件 负载 高 就 添加 哪个 功能 部 件 来 得 灵活 。 所 以 目 
前 大 规模 分 布 式 系统 都 是 采用 类 似 前 面 的 水 平分 布 式 和 垂直 分 布 式 结合 的 方式 。 当 然 ， 
一 些小 规模 的 系统 ， 则 是 可 以 按照 上 面 的 纯 水 平分 布 式 部 署 ， 比 如 只 需要 几 台 计算 机 就 
能 完成 的 业务 ， 甚 至 在 一 些小 的 服务 网 站 ， 也 许 一 台 计 算 机 和 一 台 备 份 的 计算 机 按照 上 
面 的 集成 部 署 就 能 够 满足 业务 要 求 。 

2. SDN 控制 器 分 布 式 设计 

通常 理论 上 对 于 不 同系 统 的 分 布 式 设计 方式 可 能 因 业 务 的 不 同 而 不 同 ， 但 是 有 一 些 
基本 的 过 程 是 相同 的 。 

Q 对 系统 进行 分 析 ， 找 出 哪些 可 以 并 行 ， 并 且 需 要 并 行 的 功能 部 件 ， 需 要 寻找 系 
统 中 一 些 关 键 性 能 瓶颈 ， 这 些 性 能 瓶颈 无 法 通过 SCALE UP 方式 解决 ， 需 要 对 这 些 瓶颈 
进行 分 布 式 设 计 。 

@ 对 可 以 并 行 的 功能 部 件 建 立 通 信 关 系 。 

@) 对 通信 关系 进行 分 析 ， 把 那些 通信 密集 型 的 功能 进行 归并 ， 以 避免 因为 分 布 式 
却 由 于 通信 密集 导致 性 能 下 降 的 问题 。 

@ 最 后 ， 把 整理 出 来 的 可 以 并 行 的 轴 辑 功能 形成 物理 功能 部 件 ， 并 部 署 到 逻辑 并 
行 执行 机 构 上 ， 风 辑 并 行 执行 机 构 通常 包括 分 布 式 系 统 提供 的 用 户 线程 ， 分 布 式 操作 系 
统 会 根据 用 户 策略 自动 把 这 些 用 户 线程 映射 到 物理 执行 机 构 上 。 物 理 并 行 机 构 通常 就 是 
多 计算 机 的 多 线程 系统 。 

下 面 介绍 常用 的 控制 器 分 布 式 方法 。 

(1) 基于 数据 的 分 布 式 设计 

一 般 的 分 布 式 并 行 设计 有 一 些 常 见 的 分 布 式 算法 ， 比 如 对 于 大 规模 数据 处 理 的 并 行 
设计 ， 通 常会 把 数据 切 分 成 很 多 段 ， 用 一 个 程序 专门 对 每 段 数 据 进行 处 理 。 这 个 程序 可 
以 部 署 多 个 ， 每 个 程序 分 别处 理 一 段 数 据 ， 这 样 的 程序 通常 叫 作 MAPING 程序 。 另 外 ， 
当 每 段 数据 完成 了 处 理 ， 生 成 一 个 结果 ， 可 以 作为 另外 一 个 程序 的 输入 ， 这 个 程序 完成 
后 续 的 数据 处 理 ， 这 个 程序 叫 作 Reduce 程序 。 这 个 过 程 就 是 大 数据 处 理 过 程 中 的 
MAP-reduce 架构 ， 如 图 3-33 所 示 。 

图 3-33 所 示 为 论文 中 介绍 的 MAPReduce 基本 原理 。 这 里 的 MASTER 程序 是 整体 
协调 控制 程序 ， 负 责 把 数据 进行 切 分 ， 并 启动 MAP 程序 分 别处 理 分 段 的 数据 ， 然 后 再 
启动 REDUCE 程序 进行 数据 的 最 后 归并 处 理 。MASTER 程序 本 质 上 算是 一 个 分 布 式 系 
统 中 间 件 ， 它 负责 部 署 MAPReduce 程序 ， 负 责 数 据 切 分 、 状 态 监 控 等 任务 。 举 一 个 简 
单 例 子 ， 一 个 大 数组 求 和 功能 ， 就 可 以 使 用 一 个 MAP 程序 ， 分 别 计算 一 部 分 数据 的 和 ， 
然后 用 一 个 Reduce 程序 把 所 有 的 结果 再 进行 一 次 求 和 。 这 种 基于 数据 分 割 进行 分 布 式 处 
理 的 方法 是 控制 器 领域 中 最 常用 的 方法 。 无 论 路 由 协议 处 理 、 业 务 路 由 处 理 、 网 元 资源 
处 理 ， 都 可 以 根据 数据 分 段 类 似 方法 对 数据 进行 切 分 处 理 。 通 常 切 分 后 的 各 段 数据 有 一 
个 互 不 相关 的 特点 ， 比 如 ， 路 由 协议 可 以 按照 协议 邻居 分 组 ， 网 元 资源 处 理 可 以 按照 转 
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图 3-33 MAPReduce 架构 (图 来 自 互联 网 , 引用 自 Google 论文 : MapReduce: Simplifed Data Processing on 
Large Clusters; http://labs.google.com/papers/mapreduce-osdi04.pdf) 


在 卫 领域 ， 当 有 大 规模 卫 前 级 路 由 需要 处 理 时 ， 可 以 采用 类 似 的 基于 IP 前 级 的 
分 布 式 路 由 选 路 ， 比 如 把 IP 前 级 的 第 一 个 字 节 的 0 一 255 进行 分 段 划分 为 并 行 处 理 组 ， 
比如 进行 8 个 段 的 分 布 式 并 行 选 路 ， 那 么 每 个 选 路 程序 实例 分 别 负责 一 段 IP 前 级 的 路 
由 计算 : 

0.0.0.0-31.255.255.255, 


32.0.0.0-63.255.255.255, 
64.0.0.0-95.255.255.255 


224.0.0.0-255.255.255.255; 

这 样 选 路 程序 实例 就 可 以 进行 并 行路 由 选 路 了 。 

基于 数据 分 布 式 是 常见 的 一 种 分 布 式 处 理 方法 。 在 控制 器 中 ， 每 个 网 元 都 有 自己 的 
资源 数据 要 进行 处 理 ， 于 是 可 以 考虑 把 网 元 资源 处 理 程序 进行 分 布 式 多 实例 部 署 。 这 些 
实例 可 以 并 行 处 理 各 自 的 网 元 资源 数据 。 分 布 式 中 间 件 会 部 署 很 多 个 相同 的 网 元 资源 处 
理 程序 实例 ， 在 不 同 的 计算 机 系统 上 运行 ， 然 后 让 每 个 程序 实例 处 理 一 部 分 网 元 的 资源 
数据 。 比 如 , 转发 器 网 元 1 一 100 的 资源 处 理 让 一 台 计 算 机 上 的 网 元 资源 处 理 程序 实例 处 
理 , 转发 器 网 元 101 一 200 的 资源 在 另外 一 台 计 算 机 上 的 网 元 资源 处 理 程序 实例 处 理 。 通 
过 这 种 方法 可 以 有 效 地 解决 控制 器 对 于 大 规模 网 络 控制 的 需求 。 这 种 分 布 式 方法 是 一 种 
水 平分 布 式 方法 。 

基于 数据 分 布 式 处 理 的 一 个 前 提 是 这 些 数 据 和 处 理 任务 是 可 以 进行 并 行 划分 ， 它 们 
之 间 是 独立 的 ， 无 论 是 前 级 还 是 一 个 网 元 的 资源 数据 ， 它 们 互相 之 间 没 有 关系 ， 不 需要 
互相 同步 。 当 程序 实例 在 处 理 它 负责 的 数据 时 ， 完 全 不 会 受到 另外 的 程序 实例 处 理 的 数 
据 的 干扰 。 但 这 种 基于 数据 划分 的 并 行 分 布 式 处 理 方式 存在 的 一 个 问题 ， 是 其 他 程序 如 
何 寻 址 这 些 程序 实例 处 理 的 数据 ， 需 要 仔细 设计 。 当 把 一 些 数据 分 配给 一 个 程序 实例 而 
另外 一 些 数据 分 配给 另外 一 个 程序 实例 进行 处 理 时 , 假如 有 一 个 部 件 要 求 查询 一 个 数据 ， 
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比如 一 个 路 由 协议 BGP 部 件 希望 向 卫 路 由 选 路 功能 部 件 查看 51.2.2.2/24 的 路 由 计算 结 
果 ， 那 么 该 向 哪个 实例 发 起 这 个 查询 请 求 呢 ?通常 有 如 下 几 个 方法 : 

Q BGP 可 以 向 所 有 的 分 布 式 程序 实例 发 起 同样 的 请 求 ， 知 道 结果 的 程序 实例 返回 
结果 。 这 样 做 的 问题 是 它 需要 向 所 有 分 布 式 程序 实例 发 起 请 求 ， 性 能 会 受到 影响 。 

@ BGP 向 任何 一 个 程序 实例 发 起 请 求 ， 程 序 实例 本 身 可 以 维护 一 个 表 。 这 个 表 记 
录 着 每 个 程序 实例 处 理 的 数据 的 分 段 信息 ， 然 后 把 请 求 重 新 定向 到 真正 的 程序 实例 ， 由 
那个 实例 返回 结果 。 这 要 求 每 个 程序 实例 都 保存 这 个 信息 表 ， 需 要 寻 址 信息 表 数 据 全 分 
布 式 ， 每 个 实例 都 有 这 个 信息 表 ， 资 源 消耗 大 。 

@) BGP 可 以 向 一 个 专门 的 分 布 式 程序 中 心 处 理 程 序 发 起 请 求 ， 这 个 中 心 处 理 程序 
只 是 维护 一 个 关系 表 ， 维 护 哪 段 数 据 在 哪个 程序 实例 处 理 的 信息 。 这 个 中 心 处 理 程 序 可 
以 返回 程序 实例 地 址 ，BGP 根据 返回 的 地 址 进行 重新 请 求 。 

@ BGP 本 身 可 以 通过 某 种 方式 自己 维护 上 面 提 到 的 寻 址 关系 表 。 当 它 需 要 访问 查 
询 某 个 卫 前 级 路 由 信息 时 ， 根 据 本 地 的 表 就 能 够 找到 该 向 哪个 程序 实例 发 起 请 求 。 

在 实际 设计 中 ， 可 以 根据 实际 情况 采用 其 中 的 一 个 。 如 果 分 布 式 系统 中 间 件 负责 部 
署 程序 实例 、 分 派 数 据 给 这 些 程 序 实例 ， 分 布 式 中 间 件 就 拥有 了 这 些 数据 和 数据 处 理 实 
例 的 关系 信息 , 这 样 BGP 可 以 通过 向 分 布 式 中 间 件 发 起 一 个 服务 实例 定位 请 求 , 然后 根 
据 返回 结果 再 向 返回 的 程序 实例 地 址 发 起 数据 请 求 。 为 了 提升 性 能 ，BGP 也 可 以 本 地 组 
存 这 些 关 系 表 。 

(2) 控制 器 分 布 式 设计 中 的 数据 一 致 性 问题 

上 述 基 于 数据 的 分 布 式 方法 在 控制 器 中 有 很 多 网 络 业 务 应 用 程序 都 适用 ， 比 如 基于 
VPN 业务 的 分 布 式 。 把 一 组 VPN 业务 归属 一 个 VPN 程序 实例 处 理 ， 另 外 一 组 VPN 业 
务 归属 另外 一 个 VPN 程序 实例 处 理 。 如 果 数 据 之 间 基 本 没有 关系 , 直接 进行 数据 切 分 并 
进行 分 布 式 处 理 ， 这 样 的 差事 当然 是 美 差 了 ， 设 计 也 相对 比较 容易 。 可 是 现实 总 是 不 尽 
如 人意， 总 有 一 些 任 务 不 是 这 样 的 ， 比 如 TE 隧道 的 带宽 预 留 问 题 ， 假 如 需求 是 要 计算 
满足 一 定 带 宽 要 求 的 路 径 ， 并 把 这 个 带宽 资源 预 留 下 来 ， 使 得 其 他 TE 隧道 不 能 重复 使 
用 这 些 带宽 资源 。 这 里 的 业务 需求 是 隧道 请 求 数量 多 ， 而 且 隧道 计算 程序 基于 拓扑 进行 
路 径 计 算 ， 会 消耗 大 量 的 计算 资源 ， 因 此 不 进行 分 布 式 并 行 计算 会 导致 系统 响应 性 能 急 
剧 下 降 ， 因 此 希望 进行 分 布 式 并 行 计 算 ， 来 提升 TE 隧道 计算 请 求 的 响应 速度 。 图 3-34 
显示 了 一 个 网 络 应 用 程序 在 计算 网 络 内 部 的 TE 交换 路 径 的 过 程 。 


TE 隧道 1 计算 请 求 TE 隧道 2 计算 请 求 TE 隧道 3 计算 请 求 


TE 隧道 计算 程序 TE 隧道 计算 程序 TE 隧道 计算 程序 
实例 1 实例 2 实例 3 





图 3-34 TE 隧道 计算 程序 示例 
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如 图 3-34 所 示 , 在 三 台 计 算 机 上 部 署 三 个 隧道 计算 程序 实例 ， 每 个 隧道 计算 实例 根 
据 输入 的 隧道 计算 请 求 ， 读 取 计 算 机 本 地 拓扑 〈 一 开始 这 些 计算 实例 内 的 拓扑 数据 是 同 
步 的 ), 然后 计算 满足 隧道 请 求 的 隧道 路 径 信 息 , 之 后 会 向 拓扑 进行 带宽 资源 预 留 , 比如 : 

GD TE 隧道 1 请 求 ， 要 求 计算 节点 A 到 节点 D 的 20Mbit/s 带宽 的 一 个 路 径 。 

@) TE 隧道 2 请 求 ， 要 求 计算 节点 A 到 节点 D 的 30Mbit/s 带宽 的 一 个 路 径 。 

@) TE 隧道 3 请 求 ， 要 求 计算 节点 A 到 节点 D 的 40Mbits 带宽 的 一 个 路 径 。 

假定 拓扑 如 图 3-35 所 示 。 本 

因为 初始 三 个 计算 实例 拓扑 数据 是 一 样 的 ， 50Mbfts 50Mbit's 
于 是 三 个 计算 实例 各 自 根 据 自己 的 数据 计算 出 
的 三 条 业务 路 径 都 是 一 样 的 : 


40Mbit/s 40Mbit/s 
(GD TE 隧道 1 路 径 A-B-D。 
@) TE 隧道 2 路 径 A-B-D。 

@ TE 隧道 3 路 径 A-B-D。 国 335 新 四 夺 侧 


但 是 当 都 去 扣 减 带宽 资源 的 时 候 ， 就 变 得 复杂 了 。 因 为 拓扑 数据 更 新 需要 向 所 有 
其 他 实例 同步 数据 ， 这 里 保证 数据 的 一 致 性 非常 重要 。 如 果 不 进行 任何 控制 ， 就 没 
有 办 法 保证 这 三 个 隧道 业务 请 求 完 成 后 ， 数 据 仍 然 是 保持 一 致 的 。 下 面 分 析 扣 减 带 
宽 过 程 。 

计算 机 1 计算 完成 ， 进 行 本 地 带宽 资源 扣除 ， 于 是 计算 机 1 的 拓扑 数据 更 新 为 : 

计算 机 1 拓扑 数据 : AB BW= 30M, BD BW=30M, AC BW= 40M,CD BW=40M 

(这 里 AB BW 指 的 是 A 和 B 之 间 的 剩余 带宽 数据 ，BW 是 Bandwidth, 下 同 。 同 理 ，BD 是 指 B 和 D 之 间 ，AC 是 指 A 
和 @ 之 间 。) 

同样 道理 ， 计 算 机 2 计算 完成 并 扣除 本 地 带宽 资源 后 ， 拓 扑 数据 为 : 

计算 机 2 拓扑 数据 ， AB BW =20M, BD BW =20M, AC BW =40MCD BW=40M 

计算 机 3 计算 完成 本 地 带宽 资源 扣除 后 ， 拓 扑 数据 为 : 

计算 机 3 拓扑 数据 : AB BW = 10M, BD BW =10M, AC BW = 40M, CD BW = 40M 

处 理 过 程 到 此 并 没有 结束 ， 因 为 需要 确保 每 个 计算 机 实例 上 的 拓扑 数据 最 终 达 到 一 
致 ， 于 是 本 地 资源 扣除 后 不 得 不 到 其 他 计算 机 的 拓扑 中 去 同步 数据 ， 扣 除 其 他 计算 机 实 
例 上 的 拓扑 里 面 的 带宽 数据 。 这 样 每 个 计算 机 都 向 其 他 计算 机 发 起 带宽 扣除 请 求 ， 等 待 
应 答 。 比 如 ， 计 算 机 1 向 计算 机 2 和 计算 机 3 发 起 带宽 扣除 AB 的 20Mbit/s 和 BD 的 
20Mbit/s 带宽 请 求 。 计 算 机 2 收 到 请 求 后 ， 应 答 成 功 ， 计 算 机 3 收 到 请 求 后 ， 会 应 答 不 
成 功 。 因 为 计算 机 3 的 拓扑 数据 中 ，AB 剩余 10Mbit/s、BD 剩余 10Mbit/s 带宽 ， 所 以 会 
返回 失败 。 于 是 计算 机 1 发 起 的 请 求 不 会 成 功 ， 因 为 没有 成 功 地 把 资源 在 三 个 拓扑 处 理 
实例 中 扣 减 完成 达到 数据 一 致 。 

同时 ， 看 看 计算 机 2， 同 样 会 向 计算 机 1 和 计算 机 3 发 起 带宽 扣除 ， 要 求 扣 除 AB 
的 30Mbit/s、BD 的 30Mbit/s 带宽 。 计 算 机 1 检查 本 地 的 拓扑 数据 ， 发 现 可 以 满足 要 求 ， 
于 是 应 答 成 功 ， 而 计算 机 3 发 现 本 地 的 AB 带宽 只 有 10Mbit/s，BD 也 只 有 10Mbit/s， 
无 法 满足 需求 ， 所 以 会 应 答 失 败 ， 并 保持 本 地 数据 不 变 。 于 是 计算 机 2 的 隧道 请 求 也 
失败 了 。 
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时 ， 计 算 机 3 同样 会 向 计算 机 1 和 计算 机 2 发 起 带宽 扣除 ， 要 求 扣除 AB 的 
40Mbit/s、BD 的 40Mbit/s 带宽 。 计 算 机 1 检查 本 地 的 拓扑 数据 ， 发 现 无 法 满足 ， 因 为 其 
本 地 数据 是 AB 剩余 30Mbits、BD 剩余 30Mbit/s， 于 是 应 答 失败 ; 而 计算 机 2 发 现 本 地 
的 AB 带宽 只 有 20Mbit/s、BD 也 只 有 20Mbit/s， 也 无 法 满足 需求 ， 所 以 会 应 答 失 败 ， 并 
保持 本 地 数据 不 变 。 于 是 计算 机 3 的 隧道 请 求 也 失败 了 。 

那么 它们 各 自 本 地 计算 成 功 的 路 径 ， 经 过 一 番 向 其 他 拓扑 数据 同步 数据 请 求 的 过 
程 ， 结 果 全 部 都 返回 失败 了 。 

假定 计算 失败 ， 系 统 需要 重新 进行 一 次 计算 。 那 么 它们 如 果 还 是 这 样 并 行 地 进行 计 
算 ， 结 果 可 能 还 是 一 样 的 ， 全 部 失败 。 其 实 上 述 状 态 是 一 种 共享 资源 占用 的 互 锁 状态 
也 就 是 形成 死 锁 。 在 系统 设计 中 ， 上 述 例子 有 一 定 概 率 永远 也 不 会 收敛， 就 是 永远 也 不 
会 有 业务 成 功 。 

看 看 这 个 拓扑 图 ， 期 望 能 够 取得 以 下 这 样 的 两 种 结果 

第 一 种 ，TE 隧道 1 (A-B-D) 成 功 ，TE 隧道 2 (A-B-D) 成 功 ，TE 隧道 3 (A-B-D) 
失败 ， 拓 扑 数据 同步 ， 隧 道 3 重新 计算 ， 然 后 隧道 3 走 A-C-D 也 成 功 。 

第 二 种 ，TE 隧道 1 (A-B-D) 失败 ，TE 隧道 2 (A-B-D) 失败 ，TE 隧道 3 (A-B-D) 
成 功 , 拓扑 数据 同步 后 ,TE 隧道 1 或 者 TE 隧道 2 有 一 个 能 够 通过 A-C-D 成 功 完成 隧道 
的 建立 和 资源 预 留 。 

那么 到 底 什 么 地 方 出 了 问题 呢 ? 其 根本 就 是 因为 并 行 分 布 式 计算 时 ， 共 享 的 带宽 资 
源 数据 管理 也 进行 了 分 布 式 处 理 ， 而 分 布 式 情况 下 共享 资源 的 数据 同步 问题 导致 了 这 样 
的 死 锁 问题 

解决 上 述 问题 的 方法 在 再 企 上 有 很 多 种 ， 这 里 仅仅 提供 一 种 工程 上 常见 的 可 行 的 方 
法 。 这 个 方法 笨拙 但 是 简单 ， 也 是 解决 死 锁 问题 最 常用 的 方法 。 这 种 方法 就 是 对 共享 资 
源 的 处 理 串 行 化 ， 就 是 说 把 每 个 带宽 资源 扣 减 申请 在 一 台 计 算 机 上 进行 串 行 化 处 理 ， 这 
样 面 对 隧 道 1、 隧 道 >、 隧道 3 的 资源 扣 减 工作 就 会 被 排序 进行 , 一 个 一 个 地 进行 带宽 扣 
减 ， 扣 减 不 成 功 的 则 返回 重新 计算 ， 同 时 带宽 扣 减 还 要 进行 拓扑 数据 同步 。 工 作 过 程 如 
图 3-36 所 示 。 


TE 隧道 1 计算 请 求 TE 隧道 2 计算 请 求 TE 隧道 3 计算 请 求 


TE 隧道 计算 程序 TE 隧道 计算 程序 TE 隧道 计算 程序 
实例 1 实例 2 实例 3 
ee 





图 3-36 ”集中 式 带宽 扣 减 机 制 


比如 ， 计 算 机 1 负责 带宽 扣 减 ， 于 是 它 可 能 收 到 带宽 扣 减 的 顺序 依次 是 TE 隧道 1 
的 A-B-D 的 20Mbits 扣 减 请 求 、TE 隧道 3 的 A-B-D 的 40Mbits 扣 减 请 求 、TE 隧道 2 
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的 A-B-D 的 30Mbit/s 扣 减 请 求 。 经 过 处 理 后 ，TE 隧道 1 成 功 ，TE 隧道 3 失败 ，TE 隧 
道 2 成 功 。 同 时 每 个 隧道 带宽 扣 减 完成 后 ， 拓 扑 数据 会 同步 给 计算 机 2 和 计算 机 3 的 拓 
扑 管理 部 件 。 这 样 最 后 TE 隧道 1 成 功 ， 隧 道 3 失败 ，TE 隧道 2 成 功 。 失 败 的 隧道 3 请 
求 会 被 计算 机 3 重新 计算 ， 如 果 此 时 计算 机 3 的 拓扑 数据 已 经 更 新 ， 那 么 TE 隧道 3 的 
重新 计算 结果 就 是 A-C-D。 于 是 再 次 申请 带宽 扣 减 ,计算机 1 会 成 功 扣 减 带宽 ，TE 隧道 
3 也 成 功 建立 。 如果 TE 隧道 3 重新 计算 时 ， 拓 扑 数据 没有 更 新 还 是 原来 的 数据 ， 结 果 还 
会 计算 出 A-B-D， 于 是 就 会 再 次 发 起 扣 减 请 求 ， 此 时 计算 机 1 仍然 返回 失败 。 这 样 几 次 
下 来 ， 计 算 机 3 的 拓扑 数据 一 定 会 更 新 ， 计 算 机 3 的 计算 结果 也 会 是 A-C-D。 于 是 所 有 
的 TE 隧道 都 成 功 建立 了 。 

所 以 ， 在 工程 上 解决 此 类 分 布 式 数据 一 致 性 问题 ， 一 个 简单 的 办 法 是 串 行 化 。 也 就 
是 集中 扣 减 带宽 处 理 ， 而 不 是 进行 分 布 式 处理 ， 当 然 计 算 仍然 是 分 布 式 的 。 尽 管 解决 分 
布 式 数据 一 致 性 问题 的 理论 方法 在 专业 书籍 中 有 不 少 论述 ， 但 是 工程 上 简单 可 行 的 仍然 
是 集中 处 理 。 当 然 ， 某 些 场景 不 排除 仍然 可 以 采用 各 种 分 布 式 事务 ， 方 法 根据 数据 一 致 
性 要 求 的 严格 程度 不 同 而 不 同 。 详 细 信息 可 以 参考 相关 文献 ， 但 是 作者 还 是 推荐 使 用 上 
述 方法 。 

在 控制 器 上 的 一 些 单一 共享 资源 分 配 上 ， 也 有 同样 问题 ， 比 如 标签 的 分 配 。 标 签 
资源 作为 一 个 转发 器 的 协议 资源 ， 应 用 程序 申请 标签 时 ， 是 不 能 分 配 重复 的 。 如 果 要 
进行 分 布 式 并 行 标签 分 配 该 怎么 做 呢 ? 初始 状态 下 ， 每 个 标签 分 配 实例 都 拿 到 同样 个 
数 的 可 用 标签 ， 比 如 1 一 10000。 但 是 每 个 实例 进行 独立 分 配 标签 ， 然 后 向 其 他 实例 申 
请 标签 保留 确认 。 这 样 的 处 理 过 程 也 会 带 来 上 面 描述 的 类 似 问 题 ， 就 是 无 法 保证 各 自 
分 配 的 标签 不 冲突 。 冲 突 后 再 次 重新 分 配 并 重新 向 其 他 人 申请 标签 保留 ， 这 种 方法 可 
能 概率 性 不 收敛 。 解 决 这 样 的 问题 除了 上 面 说 的 进行 串 行 化 处 理 方法 外 ， 也 可 以 采用 
类 似 数据 分 段 的 方法 。 比 如 ,每 个 标签 分 配 实例 仅仅 负责 一 个 段 的 标签 分 配 ， 比 如 1 一 
200 由 一 个 标签 分 配 实例 分 配 ，201 一 400 由 另外 一 个 标签 分 配 实例 分 配 。 但 是 这 个 方 
法 有 一 个 问题 是 分 段 不 够 灵活 ， 我 们 不 知道 给 每 个 计算 机 实例 分 配 多 少 个 标签 够 用 。 
工程 上 很 难 配置 这 数据 。 总 之 ， 存 在 共享 资源 死 锁 问题 ， 是 因为 采用 了 分 布 式 并 行 计 
算 导 致 的 ， 一 个 简单 可 行 的 工程 方法 是 对 关键 资源 访问 进行 串 行 化 控制 ， 然 后 对 失败 
的 请 求 进行 重 计算 处 理 。 

(3) SDN 控制 器 需要 采用 水 平分 布 式 和 垂直 分 布 式 

SDN 网 络 中 的 一 个 核心 单元 是 SDN 控制 器 , 这 个 SDN 控制 器 负责 所 有 的 内 部 交换 
路 径 的 计算 和 交换 路 由 下 发 ， 也 负责 所 有 的 网 络 接 入 业务 和 接 入 协议 的 处 理 。 如 果 有 100 
万 台 物 理 服务 器 ， 每 个 物理 服务 器 虚拟 出 20 个 虚拟 机 ， 就 是 2000 万 个 虚拟 机 ， 需 要 处 理 
的 ARP 请 求 数量 最 多 可 能 并 发 500 万 个 / 秒 ， 这 个 ARP 处 理 数量 是 海量 数据 处 理 。BGP 
路 由 也 是 一 样 的， 在 骨干 网 ， 一 个 邻居 就 会 有 50 万 个 以 上 BGP 路 由 ， 通 常 一 个 骨干 网 
会 多 到 几 百 个 邻居 ， 那 么 总 体 BGP 路 由 数量 可 能 达到 数 以 亿 计 ，BGP 路 由 处 理 要 求 也 
是 海量 的 。 同 时 SDN 控制 器 还 需要 控制 海量 的 转发 器 。 在 数据 中 心 场景 ， 采 用 OVERLAY 
方式 组 网 ， 控 制 器 未 来 需要 控制 上 百 万 台 的 OVS (软件 交换 机 );， 在 接 入 网 场景 ， 可 能 
要 控制 几 万 台 转 发 器 ; 在 骨干 网 可 能 需要 控制 几 千 台 骨 干 设备 以 及 处 理 海 量 BGP 路 由 计 
算 。 总结 起 来 就 是 SDN 控制 器 由 于 其 管控 网 络 规模 非常 大 ,使 得 其 内 部 路 径 计 算 、 转 发 
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器 资源 管理 、 接 入 业务 路 由 处 理 都 面临 巨大 的 挑战 ， 不 是 一 台 计 算 机 通过 SCALE-UP 技 
术 能 够 解决 的 ， 必 须 提 供 分 布 式 集群 系统 来 满足 上 述 海量 计算 需求 。 
再 看 一 下 SDN 控制 器 的 参考 实现 架构 ， 如 图 3-37 所 示 。 
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图 3-37 SDN 控制 器 参考 实现 架构 


其 中 的 网 元 资源 管理 ， 是 随 着 控制 网 元 数量 的 增加 而 增加 的 ， 而 拓扑 资源 管理 功能 
的 数据 量 却 没有 像 网 元 资源 管理 功能 那样 ， 随 着 网 元 数量 而 增加 ; 应 用 层 的 各 种 协议 处 
理 和 业务 处 理 ， 在 某 些 场景 下 也 是 要 支持 海量 协议 处 理 和 数据 处 理 的 。 比 如 前 面 介绍 的 
ARP、BGP 等 协议 ， 都 需要 处 理 海量 请 求 和 路 由 处 理 。 也 有 一 些 路 由 协议 处 理 不 需要 进 
行 分 布 式 并 行 处 理 。 根 据 这 种 情况 ， 控 制 器 系统 的 分 布 式 不 应 该 采用 单一 的 水 平 扩展 方 
式 ， 而 是 应 该 采用 水 平分 布 式 和 垂直 分 布 式 混合 使 用 。 

如 果 仅 仅 采 用 水 平分 布 式 ， 在 每 个 服务 器 上 都 部 署 同样 的 应 用 程序 功能 ， 则 是 没有 
必要 也 是 不 合适 的 。 比 如 ， 拓 扑 资源 管理 就 应 该 和 网 元 资源 管理 进行 不 同 的 部 署 方式 ， 
即 按照 功能 进行 垂直 分 布 式 ， 网 元 资源 管理 功能 倒是 可 以 简单 地 按照 水 平分 布 式 来 进行 
扩展 ;拓扑 管理 功能 没有 必要 和 网 元 资源 管理 功能 一 起 扩展 ， 在 每 台 服 务 器 上 都 部 署 ， 
而 是 在 某 些 服务 器 上 部 署 拓扑 管理 就 可 以 了 。 因 为 网 元 资源 管理 的 部 署 模型 和 拓扑 管理 
的 业务 需求 导致 部 署 模型 不 同 ， 不 能 简单 地 采用 相同 的 模型 进行 水 平分 布 式 部 署 ， 必 须 
考虑 采用 不 同 的 部 署 模 型 进行 垂直 分 布 式 部 署 。 

实际 上 控制 器 的 分 布 式 部 署 方式 可 能 如 图 3-38 所 示 的 架构 。 网 元 资源 管理 可 能 随 
网 元 数量 增加 而 不 断 增 加 ， 而 网 络 拓扑 资源 可 能 只 需要 部 署 在 儿 台 服务 器 上 。 网 络 业 
务 应 用 程序 中 的 协议 和 业务 处 理 也 可 以 根据 本 身 的 需要 进行 分 布 式 部 署 。 这 样 做 的 灵 
活 之 处 在 于 如 果 部 署 的 网 络 协议 处 理 要 求 更 多 的 计算 资源 ， 则 只 要 增加 计算 机 并 部 署 
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这 些 协议 处 理 组 件 就 可 以 了 ; 而 如 果 是 转发 器 网 元 不 断 增加 ， 只 要 增加 计算 机 资源 ， 
并 部 署 网 元 资源 管理 组 件 就 满足 要 求 。 这 种 方式 本 质 上 就 是 垂直 分 布 式 和 水 平分 布 式 
都 使 用 了 。 


计算 机 2 


BGP 邻居 
301-400 


网 络 操作 系统 


Re 
Re 201… ) 





3-38 ”SDN 控制 器 的 垂直 和 水 平分 布 式 实现 架构 


控制 器 是 一 个 大 型 的 分 布 式 计算 机 系统 ， 需 要 支持 垂直 和 水 平分 布 式 两 种 模式 才能 
很 好 地 满足 控制 器 的 扩展 需求 。 控 制 器 的 分 布 式 计算 机 系统 也 需要 对 外 提供 单一 服务 他 
的 能 力 ， 这 样 才能 真正 有 效 地 对 外 部 转发 器 和 周边 邻居 屏蔽 内 部 服务 器 细节 ， 不 因为 集 
群 内 部 的 变化 而 影响 邻居 

关于 分 布 式 设计 的 一 个 建议 是 ， 尽 可 能 避免 使 用 分 布 式 设计 。 


3.4.2 ”SDN 控制 器 的 可 靠 性 和 开放 性 


1，SDN 控制 器 可 靠 性 

SDN 控制 器 常见 的 两 种 故障 是 运行 控制 器 软件 的 服务 器 故障 和 控制 器 软件 本 身 故 
障 。 针 对 这 两 种 故障 ， 系 统 需要 对 故障 部 件 进行 元 余 备 份 ， 这 样 ， 当 服务 器 故障 时 ， 可 
以 使 用 备份 服务 器 接替 工作 ， 当 一 个 软件 部 件 故障 时 ， 也 可 以 用 其 备份 部 件 接替 工作 。 
本 章 前 面 也 提 到 过 ， 这 两 种 故障 最 后 可 以 使 用 一 种 技术 来 实现 ， 都 可 以 归结 为 进程 元 余 
备份 。 只 要 把 系统 中 每 个 进程 都 安排 一 个 备份 进程 ， 那 么 当主 用 进程 崩溃 时 ， 备 份 进程 
就 可 以 接替 工作 。 服 务 器 故障 也 可 以 分 解 为 是 服务 器 上 的 多 个 进程 朋 误 。 这 样 ， 备 份 技 
术 就 都 归结 到 进程 的 备份 技术 了 。 

作为 可 靠 性 实现 方案 ， 首 先 需要 能 够 感知 故障 ， 这 个 过 程 是 监控 过 程 。 分 布 式 操作 
系统 会 对 分 布 式 系统 中 的 每 个 进程 进行 监控 ， 一旦 发 生 故 障 ， 分 布 式 操作 系统 会 用 备份 
进程 接替 崩溃 的 主 用 进程 工作 ， 这 个 过 程 是 备 升 主 过 程 〈( 也 称 为 主 备 倒 换 过 程 )。 分 布 式 
操作 系统 完成 的 重要 工作 是 修改 内 部 的 通信 关系 表 ， 以 便 其 他 与 原 主 用 进程 通信 的 进程 
能 够 正确 地 把 数据 发 送 给 新 的 主 用 进程 ， 并 且 确 保 这 个 过 程 中 其 他 进程 并 不 感知 。 备 份 
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进程 能 够 接替 主 用 进程 工作 的 前 提 是 必须 拥有 能 够 接替 工作 的 数据 ， 没 有 这 些 数据 ， 备 
份 进程 是 无 法 接替 主 用 进程 工作 的 。 这 就 需要 主 用 进程 平时 就 进行 数据 备份 。 数 据 备份 
过 程 相当 复杂 , 如 果 骨 省 的 最 后 一 刻 备 份 数据 丢 失 了 , 但 是 其 他 相关 进程 数据 已 经 更 新 ， 
那 结果 备用 进程 升 主 用 后 ， 其 数据 和 其 他 相关 进程 的 数据 会 不 一 致 。 所 以 备用 进程 升 主 
用 进程 后 ， 需 要 对 系统 数据 进行 平滑 ， 以 确保 相关 进程 的 数据 一 致 性 。 而 主 备 倒 换 触 发 
数据 平滑 的 事件 也 是 由 分 布 式 操作 系统 完成 通知 的 , 这 样 进程 状态 从 备用 转换 为 主 用 后 ， 
会 收 到 一 个 事件 ， 它 可 以 自己 进行 相关 业务 数据 平滑 。 
整个 备份 恢复 过 程 的 示意 如 图 3-39 所 示 。 





图 3-39 主 备 进程 倒 换 过 程 


图 中 ， 原 来 进程 B 和 主 用 进程 A 通信 ， 见 GD， 同 时 主 用 进程 A 会 备份 数据 到 备用 
进程 A， 见 @; 当主 用 进程 A 崩溃 时 ， 分 布 式 操作 系统 监控 到 这 个 事件 ， 会 修改 物理 通 
信 关 系 表 ， 这 样 进程 B 的 实际 通信 者 修改 为 备用 进程 A〈 此 时 在 分 布 式 操作 系统 看 来 它 
已 经 升 为 主 用 进程 ， 其 状态 发 生变 化 了 )， 见 @。 这 样 进程 B 事实 上 不 知道 目前 与 之 通 
信 的 进程 A 其 实 已 经 换 了 一 个 进程 ,同时 分 布 式 操作 系统 会 通知 这 个 备用 进程 A 进行 数 
据 平 滑 ， 也 就 是 多 过 程 。 

在 进程 备份 方案 中 ， 重 要 的 是 数据 的 见 余 备份 。 对 于 一 些 应 用 程序 ， 尤 其 是 非 实 时 
应 用 程序 ， 通 常 仅仅 备份 数据 ， 而 不 会 运行 备用 进程 (这 里 的 备用 进程 是 一 个 进程 的 一 
种 角色 。 在 实际 的 实现 案例 中 ， 可 以 使 用 专门 的 一 个 独立 进程 作为 备份 进程 ， 也 可 以 是 
一 个 工作 的 主 用 进程 承担 其 他 进程 的 备份 进程 角色 )。 在 仅仅 备份 数据 的 可 靠 方案 中 , 当 
主 用 程序 崩溃 ， 需 要 重新 启动 一 个 备用 程序 利用 备份 数据 进行 系统 恢复 ， 这 样 整个 业务 
恢复 时 间 相 对 较 长 ， 业 务 可 能 中 断 。 而 如 果 在 系统 中 不 仅仅 备份 数据 ， 同 时 还 有 一 个 热 
备份 的 程序 同时 在 运行 ， 那 么 主 用 程序 朋 泪 ， 备 用 程序 可 以 立即 接管 系统 ， 业 务 可 以 做 
到 不 间断 。 仅 仅 备 份 数据 而 不 运行 备份 进程 的 做 法 在 一 些 实时 性 要 求 不 高 的 场景 是 可 行 
的 。 但 是 ， 控 制 器 对 实时 性 要 求 非常 高 ， 需 要 考虑 运行 备用 程序 ， 加 速 系统 故障 恢复 过 
程 ， 减 短 业务 受到 影响 的 时 间 。 而 备份 的 数据 通常 有 无 状态 数据 和 状态 数据 ， 控 制 器 为 
了 做 到 故障 周边 邻居 不 感知 ， 需 要 对 状态 数据 进行 备份 。 比 如 ， 网 络 业 务 应 用 程序 BGP 
所 在 的 进程 发 生 崩 溃 ， 不 希望 其 BGP 邻居 感知 其 故障 ， 那 就 需要 对 BGP 的 状态 数据 进 
行 备份 ， 并 且 需 要 保持 TCP 的 整个 倒 换 过 程 的 连续 性 ， 这 些 技术 都 是 相当 复杂 的 。 传 统 
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网 络 称 这 种 技术 为 NSR (Non-Stop Routing， 直 达 路 由 ) 技术 ， 能 够 实现 的 厂家 窒 窒 无几 。 

控制 器 的 可 靠 性 问题 ， 进 程 监控 是 由 分 布 式 中 间 件 完成 的 。 而 分 布 式 中 间 件 也 是 进 
程 ， 谁 来 监控 这 些 系统 进程 呢 ? 通常 的 分 布 式 系统 中 间 件 进程 需要 部 署 一 个 或 者 多 个 备 
份 进 程 ， 一 方面 是 因为 这 些 备份 进程 需要 获得 主 用 进程 数据 ， 另 一 方面 是 它们 同时 也 监 
控 主 用 系统 中 间 件 进程 ， 如 果 发 现 主 用 分 布 式 系统 中 间 件 故障 ， 这 些 备份 中 的 一 个 会 接 
管 系统 。 这 些 系统 进程 对 可 靠 性 要 求 更 高 ， 通 常 需要 应 对 双 点 同时 故障 的 问题 。 不 像 业 
务 进程 ， 可 以 部 署 一 个 备份 进程 。 如 果 出 现 主 备 业 务 进程 同时 故障 ， 分 布 式 系统 中 间 件 
会 重新 启动 这 些 进 程 ， 业 务 中 断 时 间 就 会 长 一 些 。 

在 SDN 可 靠 性 一 章 将 介绍 更 多 可 靠 性 实现 细节 。 

2. SDN 控制 器 开放 性 

SDN 控制 器 的 开放 性 问题 ， 也 是 业界 一 直 没 有 达成 共识 的 问题 ， 尤 其 是 北向 接口 开 
放 问 题 。 对 用 户 南 向 开放 接口 ， 使 得 第 三 方 能 够 通过 驱动 程序 对 接 控制 器 ， 使 得 控制 
器 能 够 管理 自己 厂家 的 转发 器 ， 这 个 问题 倒是 争议 不 大 。 这 里 开放 就 是 网 络 操作 系统 
的 南 向 接口 。 也 就 是 说 ， 控 制 器 厂家 的 网 络 操作 系统 需要 开放 南 向 接口 ， 并 且 提 供 第 
三 方 驱动 加 载 机 制 ， 同 时 需要 配套 地 提供 开发 调试 环境 ， 以 便 第 三 方 能 够 真正 地 开发 
驱动 程序 。 目 前 产业 链 对 于 一 个 传统 设备 供应 商 给 另外 一 个 供应 商 的 控制 器 开发 驱动 
程序 抱 有 悲观 态度 ， 这 也 是 竞争 的 原因 。 一 个 可 能 的 解决 方案 是 利用 开源 控制 器 平台 
在 其 中 作为 一 个 中 介 ， 各 个 厂家 都 对 接 这 个 开源 控制 器 平台 ， 然 后 各 个 厂家 基于 开源 
控制 器 平台 开发 控制 器 。 可 惜 的 是 ， 目 前 开源 控制 器 平台 都 没有 清晰 地 定位 自己 是 网 
络 操作 系统 ， 而 是 试图 把 自己 定位 为 控制 器 。 这 种 模糊 的 定位 对 产业 链 有 很 不 利 的 影 
响 。 开 源 控制 器 平台 应 该 定位 为 网 络 操作 系统 ， 把 网 络 应 用 业务 留 给 控制 器 开发 商 ， 
这 样 各 方 利益 都 有 保证 。 

至 于 北向 ， 到 底 控制 器 开放 哪些 接口 ? 有 一 种 观点 认为 主要 开发 网 络 北向 业务 模 
型 ， 这 样 外 部 的 协同 层 应 用 程序 就 可 以 调用 这 些 北向 业务 模型 接口 来 开发 网 络 业 务 了 ， 
这 些 北向 网 络 业 务 模型 接口 通常 是 网 络 业 务 应 用 程序 提供 的 。 男 外 一 种 观点 是 希望 开放 
更 加 底层 的 接口 ， 比 如 网 络 操 作 系 统 的 接口 ， 开 放 这 些 接口 有 助 于 快速 开放 网 络 业 务 。 
当然 后 者 适合 资深 网 络 编程 人 员 来 开发 ， 因 为 需要 实际 操作 网 络 中 的 网 元 资源 数据 ， 并 
且 对 网 络 内 部 实现 细节 要 求 掌握 非常 深入 。 而 开放 北向 业务 模型 接口 ， 对 程序 员 的 要 求 
会 低 一 些 ， 主 要 是 直接 开放 业务 接口 ， 这 些 接 口 更 加 高 层 和 容易 理解 。 

开放 接口 包括 开放 接口 形式 和 开放 接口 的 内 容 。 接 口 形式 包括 Netconf 协议 、 
RESTFUL、Java API 等 ， 其 实 这 个 形式 并 不 重要 ， 重 要 的 是 内 容 。 上 面 讨论 的 开放 哪个 
层次 接口 就 是 内 容 。 作 者 认为 ， 开 放 的 控制 器 ， 应 该 包括 开放 网 络 操作 系统 接口 和 网 络 
业务 应 用 程序 开放 的 北向 业务 模型 接口 。 

后 面 章节 有 专门 针对 SDN 开放 性 的 介绍 ， 这 里 不 详细 描述 。 


3.4.3 ”混合 控制 网 络 设计 


1. 混合 控制 种 类 
在 现 网 向 SDN 演进 过 程 中 ， 需 要 考虑 混合 网 络 控制 的 场景 。 网 络 混合 控制 示意 
如 图 3-40 所 示 。 
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图 3-40 网络 混合 控制 示意 


混合 网 络 控 制 场景 包括 三 种 类 型 。 第 一 种 类 型 是 采用 车 加 混合 控制 。 对 于 一 个 特定 
的 业务 实例 ， 由 多 个 控制 面 进行 控制 。 比 如 一 个 VPN 业务 实例 , 或 者 一 个 公 网 业务 ， 由 
集中 的 SDN 控制 器 为 它们 生成 转发 表 信息 , 同时 系统 还 保留 该 业务 实例 的 分 布 式 控制 面 ， 
这 个 分 布 式 控 制 面 也 为 该 业务 实例 生成 转发 表 信息 。 这 样 转发 器 会 收 到 两 份 针对 同一 个 
业务 实例 的 转发 表 数 据 ， 转 发 器 可 以 根据 一 定 的 策略 选择 其 中 一 个 控制 面 的 转发 表 安装 
到 转发 引擎 。 这 里 多 个 控制 面 还 可 能 是 来 自 多 个 控制 器 对 同一 个 业务 实例 的 控制 ， 转 发 
器 本 身 需 要 根据 策略 来 决定 到 底 选 择 哪 个 控制 系统 的 数据 作为 转发 引擎 最 后 使 用 的 数 
据 。 这 种 亚 加 混合 控制 通常 用 于 希望 通过 外 置 的 SDN 控制 器 对 业务 进行 一 定 的 优化 调 
整 ， 当 控制 器 出 现 故障 时 ， 网 络 可 以 选择 另外 一 个 控制 面 ， 比 如 分 布 式 控制 面 继续 完成 
这 些 业 务 的 控制 ， 这 样 达到 了 一 个 可 靠 性 保护 效果 。 当 然 ， 通 常情 况 下 ， 分 布 式 控制 面 
业务 处 理 可 能 不 是 最 优 的 ， 仅 仅 是 提供 最 低 服 务 保障 。 

第 二 种 类 型 是 按 业 务实 例 混 合 控制 。 此 类 混合 控制 是 把 特定 的 业务 实例 归属 一 个 控 
制 面 , 而 男 外 一 个 业务 实例 则 由 不 同 的 控制 面 来 控制 。 比如 一 个 VPN 业务 实例 让 控制 器 
1 进行 控制 ， 而 男 外 一 个 VPN 业务 实例 则 由 分 布 式 控制 平面 控制 。 这 样 做 的 原因 是 从 现 
网 向 SDN 迁移 过 程 中 , 网 络 中 可 能 已 经 部 署 了 一 些 业 务实 例 , 用 户 不 希望 立即 调整 这 些 
业务 实例 ， 而 是 希望 让 控制 器 先 部 署 一 些 试验 性 的 业务 实例 ， 以 便 用 于 积累 经 验 和 检验 
SDN 系统 。 随 后 ， 可 以 把 一 些 业 务实 例 部 署 在 SDN 上 进行 运营 ， 并 可 以 考虑 逐步 地 把 
原来 的 分 布 式 控制 的 业务 实例 也 迁移 到 SDN。 

第 三 种 类 型 是 按 业 务 功能 混合 控制 。 这 种 混合 可 以 是 把 网 络 内 部 的 Fabric 控制 交 给 
控制 器 控制 ， 把 业务 控制 仍然 由 分 布 式 控制 面 来 控制 ， 或 者 相反 的 情形 。 这 种 做 法 是 用 
户 希望 解决 特定 的 网 络 问题 。 比 如 ， 用 户 可 能 关注 网 络 内 部 的 路 径流 量 调 优 ， 以 便 更 加 
有 效 地 利用 网 络 ， 简 化 网 络 内 部 的 协议 ， 提 高 可 维护 性 。 这 样 就 可 以 先 集 中 控制 Fabric。 
而 有 的 用 户 则 希望 对 其 发 放 的 业务 能 够 有 更 高 的 灵活 性 ， 那 么 就 可 以 把 业务 集中 控制 ， 
便于 灵活 调整 。 这 种 类 型 除了 按照 边缘 接 入 业务 和 网 络 内 部 Fabric 划分 外 ， 还 可 以 按照 
不 同 的 网 络 服务 ， 比 如 L2VPN 服务 和 L3VPN 服务 、 组 播 服务 、IPv6 服务 等 ， 把 某 些 网 
络 服务 集中 到 控制 器 控制 ， 而 其 他 的 部 分 则 保留 在 分 布 式 控制 面 。 这 种 情形 也 是 用 户 希 
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望 对 某 些 特定 的 服务 进行 灵活 调整 ， 这 样 集中 控制 就 很 合适 。 

上 面 混合 控制 除了 分 布 式 控制 和 集中 控制 进行 混合 控制 外 ， 还 会 有 多 个 控制 器 对 一 
台 设 备 进行 混合 控制 情形 。 这 种 情形 通常 由 于 可 靠 性 原因 ， 用 户 希 望 部 署 多 台 控 制 器 对 
网 络 进行 控制 ， 以 达到 故障 保护 效果 。 

2. 混合 控制 问题 和 实现 技术 

在 上 面 混合 控制 中 ， 县 加 混合 控制 方案 是 对 某 个 业务 实例 的 多 头 控制 ， 实 际 上 是 
一 种 同时 控制 的 严格 又 加 模式 。 在 严格 又 加 模式 下 ， 多 个 控制 面 同时 生成 转发 数据 ， 
要 求 转发 器 自行 决定 选取 哪个 数据 进行 安装 。 这 要 求 在 转发 器 本 地 定义 一 个 转发 数据 
选择 策略 ， 比 如 ， 可 以 通过 定义 控制 面 优先 级 的 方法 来 实现 转发 数据 选取 。 对 于 一 台 
转发 器 ， 这 种 做 法 没有 问题 ， 但 是 对 于 整个 网 络 ， 问 题 变 得 复杂 化 。 如 果 转 发 器 选择 
了 控制 器 控制 数据 优先 ， 那 么 要 求 控制 器 控制 的 所 有 转发 器 策略 相同 ; 否则 ， 有 的 转 
发 器 选择 控制 器 生成 的 转发 数据 ， 有 的 选择 转发 器 本 地 的 转发 数据 ， 结 果 它 们 之 间 的 
数据 可 能 冲突 。 在 传统 的 分 布 式 网 络 中 ， 为 了 避免 路 由 选择 的 不 一 致 导 致 环 路 问题 ， 
给 出 的 解决 方案 是 所 有 路 由 器 采用 相同 的 最 短路 径 算 法 来 计算 路 由 。 而 现在 的 问题 是 
一 样 的 ， 当 一 台 转 发 器 选择 控制 器 数据 ， 另 一 台 转 发 器 选择 本 地 数据 时 ， 结 果 可 能 ; 
成 环 路 。 

全 网 采用 相同 的 转发 数据 选择 策略 后 ， 仍 然 面 对 一 个 问题 : 当 转 发 器 和 控制 器 失 
去 连接 时 , 转发 器 到 底 该 多 长 时 间 后 开始 使 用 另外 一 个 控制 面 的 数据 ?假定 控制 器 优 
先 级 高 ， 转 发 器 开始 选择 了 控制 器 数据 ， 当 和 控制 器 连接 中 断后 ， 转 发 器 需要 确定 何 
时 切换 为 本 地 数据 。 这 个 时 间 也 需要 全 网 配置 一 致 ， 否 则 就 会 出 现 前 面 讨论 的 网 络 数 
据 不 一 致 问 题 。 一 方面 ， 这 个 时 间 不 能 太 短 ， 太 短 可 能 出 现 抖动 ， 控 制 器 可 能 只 是 
连接 闪 断 ， 这 样 可 能 造成 频繁 切换 ， 网 络 处 于 不 稳定 状态 。 对 于 连接 闪 断 可 以 考虑 
增加 惩罚 机 制 。 另 一 方面 ， 时 间 也 不 能 太 长 ， 如 果 时 间 太 长 不 进行 切换 ， 网 络 状态 
可 能 已 经 发 生变 化 ， 控 制 器 失去 控制 能 力 ， 导 致 网 络 无 法 收敛 。 所 以 通常 地 建议 设 
置 为 几 秒 。 

解决 上 面 两 个 问题 后 ， 如 果 网 络 一 部 分 转发 器 和 控制 器 连接 中 断 ， 另 外 一 个 部 分 和 
控制 器 链接 是 正常 的 ， 结 果 导 致 一 部 分 转发 器 使 用 本 地 控制 面 ， 一 部 分 转发 器 使 用 控制 
器 作为 控制 面 ， 这 样 最 后 的 结果 可 想 而 知 。 但 是 ， 如 果 转 发 器 和 控制 器 之 间 的 控制 通道 
是 采用 了 传统 尽 最 大 努力 方案 建立 的 ， 那 么 这 种 情况 不 应 该 发 生 。 一 旦 发 生 ， 说 明 网 络 
出 现 了 孤岛 ， 孤 岛 本 身 各 自 采用 各 自控 制 面 是 没有 问题 的 。 

另外 两 种 混合 控制 类 型 实际 上 是 非 同 时 控制 ， 是 一 种 非 严格 又 加 模式 ， 就 是 对 一 个 
业务 的 数据 总 是 归属 一 个 控制 面 来 进行 控制 ， 同 时 一 个 业务 实例 仅仅 由 一 个 控制 面 进行 
控制 ， 所 以 不 会 有 上 面 实时 控制 的 一 些 问题 。 不 管 是 实时 控制 还 是 非 实 时 控制 ， 现 在 采 
用 的 方式 都 是 在 宏观 上 看 ， 一 个 转发 器 有 多 个 控制 器 ， 这 样 就 存在 一 些 共享 资源 冲突 问 
题 需要 解决 。 比 如 转发 器 的 隧道 ID 资源 、 接 口 ID 资源 、VRFID 资源 、 标 签 资源 等 ， 这 
些 资 源 会 被 多 个 控制 面 申请 使 用 ， 可 能 存在 冲突 。 解 决 资源 冲突 问题 可 以 考虑 采用 资源 
虚拟 化 ， 比 如 一 些 转 发 器 本 地 的 ID 资源 。 标 签 资源 由 于 是 一 种 协议 资源 ， 不 能 进行 虚 
拟 化 。 解 决 此 类 资源 的 冲突 问题 需要 采用 分 段 ， 或 者 系统 中 由 一 个 实体 负责 集中 串 行 化 
分 配 ， 都 可 以 解决 此 类 问题 。 
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【本 章 小 结 】 


本 章 主要 介绍 了 控制 器 的 需求 。 控 制 器 的 需求 主要 包括 需要 考虑 规模 网 络 控制 、 可 
靠 性 、 实 时 性 、 开 放 性 、 现 网 互通 能 力 。 还 介绍 了 控制 器 的 三 个 主要 层次 : 分 布 式 操作 
系统 、 网 络 操 作 系 统 和 网 络 业 务 应 用 程序 。 接 着 介绍 了 控制 器 的 分 布 式 实现 参考 架构 ， 
控制 器 需要 同时 支持 水 平分 布 式 和 垂直 分 布 式 来 满足 大 规模 可 扩展 能 力 。 最 后 对 控制 器 
的 可 靠 性 和 开放 性 以 及 混合 控制 网 络 的 一 些 技术 问题 进行 了 简单 介绍 。 
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SDN 是 对 传统 网 络 的 一 种 重 构 ，SDN 网 络 的 三 个 基本 技术 特征 是 转 控 分 离 、 集 
中 控制 、 开 放 可 编程 。SDN 网 络 带 来 的 核心 价值 点 如 简化 网 络 、 业 务 快 速 创 新 等 ， 
正 是 由 这 种 集中 控制 的 架构 带 来 的 。 但 是 这 种 集中 控制 的 架构 ， 却 潜在 地 产生 了 一 
个 问题 ， 就 是 SDN 网 络 的 可 靠 性 可 能 不 如 以 前 的 传统 全 分 布 式 IP 网 络 。 传 统 的 IP 
网 络 是 诞生 于 冷战 时 代 ， 起 初 设计 就 是 重点 考虑 了 通信 网 络 的 生存 性 。 这 种 设计 可 
以 保证 网 络 系统 受到 类 似 核 攻击 时 仍 能 够 自 组 织 完 成 网 络 连通 性 ， 这 种 能 力 是 因 
为 传统 IP 网 络 采 用 了 全 分 布控 制 网 络 架 构 。 这 种 分 布 式 网 络 架构 一 直 影 响 着 后 续 
的 各 种 网 络 业务 的 设计 ， 其 基本 的 分 布 式 控制 网 络 架构 要 素 或 者 其 基因 一 直 没 有 
变化 ， 尽 管 也 出 现 了 类 似 BGP RR 这 样 的 集中 点 ， 但 是 路 由 计算 并 没有 任何 集中 控 
制 的 意图 。 

当今 运营 商 的 各 种 运营 网 络 以 及 Internet 网 络 ， 其 运行 维护 、 管 理 、 用 户 业 务 快速 
创新 能 力 、 网 络 的 简单 性 ， 成 为 一 个 可 运营 的 网 络 的 基本 诉求 , 所 以 SDN 网 络 架 构 出 现 
了 。 然 而 这 种 架构 的 可 靠 性 却 由 于 其 存在 天 生 的 集中 点 而 下 降 。 但 是 我 们 也 不 能 因 嘻 废 
食 ， 要 考虑 如 何在 新 的 架构 下 解决 这 些 可 靠 性 问题 。 





4.1 什么 是 可 靠 性 


可 靠 性 〈Relaibility) 和 另外 一 个 词 可 用 性 〈Availability) 经 常 混淆 。 可 靠 性 是 使 用 
平均 失效 间隔 时 间 MTBF (Mean Time Between Failures) 来 描述 的 。 失 效 是 指 应 该 提供 
的 业务 无 法 提供 ， 是 衡量 一 个 产品 或 者 系统 〈 尤 其 是 电气 产品 ) 的 可 靠 性 指标 ， 而 可 用 
性 是 用 Availability=MTBF/ (MTBF+MCT) 这 个 公式 描述 的 ， 其 中 ，MCT 是 失效 平均 修 
复 时 间 。 经 常 说 的 可 用 性 要 达到 5 个 9， 是 指 Availability=99.999%， 大 概 相当 于 系统 运 
行 1 年 宕 机 不 超过 5min 时 间 。 

可 用 性 高 不 代表 可 靠 性 高 ， 比 如 系统 1h 故障 lms， 可 用 性 是 99.9999%， 但 是 这 系 
统 并 不 可 靠 。 可 用 性 提升 通常 需要 提升 MTBF 时 间 ， 就 是 提升 可 靠 性 ， 并 且 要 求 降低 停 
机 时 间 。 因 为 如 果 MTBF 时 间 很 长 ， 比 如 3 年 出 一 次 问题 ， 但 是 如 果 一 次 问题 出 现 需要 
4 个 月 才能 修复 ， 那 可 用 性 只 有 90%， 这 就 不 是 一 个 好 的 系统 。 通 常 是 希望 系统 能 够 改 
进 MTBF 和 MCT 两 个 指标 ， 才 能 达到 用 户 的 要 求 。 本 章 讨论 的 SDN 网 络 可 靠 性 设计 问 
题 ， 就 是 指 如 何 改进 这 两 个 指标 。 

这 里 主要 讨论 如 何 提升 可 靠 性 。 可 靠 性 技术 是 在 解决 网 络 出 现 故障 时 ， 如 何 让 故障 
不 对 业务 产生 影响 ， 也 就 是 说 故障 没有 引起 失效 从 而 没有 对 业务 造成 损失 ， 这 样 就 提升 
了 MTBF 指标 ; 如果 一 个 故障 会 导致 失效 ， 就 需要 采用 一 些 技术 手段 ， 尽 量 降低 失效 时 
间 ， 尽 快 恢复 业务 ， 就 是 降低 MCT 时 间 。 

在 可 靠 性 设计 中 ， 最 为 广泛 的 技术 就 是 元 余 设 计 ， 也 就 是 容错 设计 。 通 常 需要 对 系 
统 进行 故障 模式 分 析 ， 对 于 系统 容易 出 现 故 障 的 地 方 进行 元 余 设计 。 比 如 ， 如 果 认 为 系 
统 的 主 控 板 出 现 故障 概率 较 大 ， 就 需要 设计 系统 支持 主 备 两 个 主 控 板 ， 其 中 任何 一 个 主 
控 板 出 现 故 障 ， 另 外 一 个 可 以 接替 继续 工作 ， 即 使 故障 发 生 了 ,系统 也 没有 因此 而 失效 ， 
提升 了 MTBF， 提 升 了 系统 可 靠 性 。 
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4.2 SDN 网 络 可 靠 性 故障 模式 分 析 和 对 策 


可 靠 性 的 设计 是 基于 故障 模式 的 ， 如 果 能 够 识别 出 故障 模式 ， 也 就 能 够 设计 出 针对 
这 些 故 障 模式 进行 的 元 余 设 计 。 因 此 ， 首 先 需要 从 故障 模式 入 手 来 分 析 SDN 网 络 可 靠 性 。 
图 4-1 给 出 了 SDN 网 络 架构 下 主要 的 故障 模式 。 
















控制 器 所 在 机 房 / 数据 
中 心 断 电 / 地 震 导致 整 
个 控制 器 失效 














运行 控制 器 的 服务 器 故障 
| 


SDN 控制 器 


(dj 
数据 中 心 


转发 器 网 络 故障 


图 4-1 SDN 网 络 的 基本 故障 模式 







es 





图 4-1 中 给 出 了 最 常见 的 五 种 故障 模式 : 

Q@ 运行 控制 器 的 服务 器 故障 ; 

@ 控制 器 本 身 的 软件 故障 ， 或 者 软件 部 件 故 障 ; 

@ 控制 器 和 转发 器 之 间 的 通信 链 路 故障 ; 

@ 整个 控制 器 所 在 的 数据 中 心 骨 溃 ; 

@ SDN 转发 器 网 络 故障 。 

这 五 种 故障 模式 中 的 前 四 种 ， 对 网 络 的 转发 业务 本 身 似 乎 没有 影响 ， 因 为 转发 器 可 
以 根据 既定 的 转发 流 表 ， 也 就 是 控制 器 失去 控制 之 前 发 下 的 那些 流 表 进 行 工 作 。 但 是 此 
时 如 果 发 生 网 络 拓扑 变化 ， 比 如 某 些 链 路 中 断 了 ， 那 么 受到 影响 的 业务 将 无 法 恢复 。 因 
为 没有 控制 器 为 它们 重新 计算 路 由 和 生成 转发 流 表 了 ， 人 也 就 是 失去 了 控制 ， 所 以 这 些 故 
障 必须 尽快 得 到 修复 , 以 使 得 SDN 网 络 恢复 控制 器 的 控制 。 提 高 可 靠 性 的 常用 手段 就 是 
元 余 ， 所 以 需 针 对 这 些 故 障 进行 元 余 设 计 。 第 五 种 故障 模式 是 转发 器 网 络 的 节点 或 者 链 
路 出 现 了 故障 ， 这 种 故障 的 处 理 需 要 控制 嚣 介入， 控制 器 根据 网 络 拓扑 的 变化 ， 进 行 重 
新 计算 路 由 ， 完 成 业务 的 收敛 。 

宛 余 设计 ， 可 分 为 空间 元 余 和 时 间 宛 余 两 种 元 余 模 式 。 空 间 宛 余 是 一 种 部 件 元 余 方 
式 ， 比 如 上 文 提 到 过 的 主 备 单 板 设计 ， 还 有 如 主 备 链 路 设计 、 数 据 的 多 份 副 本 ， 也 都 是 
空间 宛 余 技术 。 这 种 空间 元 余 技 术 通 过 一 个 或 者 多 个 备份 部 件 来 保护 可 能 失效 的 主 用 部 
件 ， 使 得 当主 用 部 件 失效 时 ， 备 用 部 件 可 以 继续 接替 其 工作 ， 保 证 业务 不 受到 影响 。 时 
闻 宛 余 是 指 当 系 统 出 现 错误 时 ， 系 统 重复 执行 发 生 错误 的 事务 ， 或 者 说 利用 时 间 的 连续 
性 ， 多 次 传递 同样 的 数据 来 达到 数据 的 可 靠 性 ， 比 如 TCP 的 重 传 机 制 就 是 一 种 利用 时 间 
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见 余 来 解决 可 靠 性 的 例子 。 后 文 将 介绍 的 可 靠 性 技术 主要 是 空间 见 余 技术 ， 但 是 实际 控 
制 器 设计 中 也 存在 很 多 时 间 元 余 设 计 。 下 面 我 们 看 看 如 何 利用 元 余 来 解决 上 述 五 种 基本 
的 故障 模式 。 


4.2.1 运行 控制 器 的 服务 器 故障 的 可 靠 性 设计 


根据 可 靠 性 元 余 设 计 的 方法 ， 需 要 为 可 能 失效 的 服务 器 增加 备份 服务 器 。 这 里 提供 
服务 的 服务 器 称 为 主 用 服务 器 ， 用 于 备份 的 服务 器 称 为 备用 服务 器 《或 者 备份 服务 器 )。 
假定 控制 器 仅仅 运行 在 一 台 服 务 器 上 ， 那 么 可 以 考虑 增加 一 合 备份 服务 器 。 但 是 并 不 是 
把 备份 服务 器 放 在 那里 ， 上 电 就 可 以 达到 备份 效果 ， 而 是 需要 进行 一 定 的 可 靠 性 元 余 设 
计 。 控 制 器 主 备 服务 器 的 可 靠 性 机 制 如 图 4-2 所 示 。 


SDN 控制 器 


D 主 备 监控 
@ 主 备 配 置 数据 备份 
@@ 主 备 运行 数据 备份 





图 4-2 ”控制 器 主 备 服务 器 的 可 靠 性 机 制 


第 一 ， 系 统 需要 有 监控 机 制 。 备 用 服务 器 需要 了 解 主 用 服务 器 的 状态 ， 当 主 用 
服务 器 故障 时 ， 备 用 服务 器 要 感知 到 这 个 故障 。 第 二 ， 主 用 服务 器 也 需要 监控 备用 
服务 器 。 因 为 如 果 不 进 行 主 用 服务 器 对 备用 服务 器 的 监控 ， 备 用 服务 器 由 于 茶 种 原 
因 崩 演 而 不 进行 及 时 处 理 ， 主 用 服务 器 此 时 也 崩 演 了， 结果 相当 于 系统 的 主 用 和 备 
用 服务 器 都 骨 江 了 ， 系 统 将 无 法 恢复 。 当 然 ， 不 管 是 主 用 监控 备用 服务 器 ， 还 是 备 
用 监控 主 用 服务 器 ， 一 旦 发 现 对 方 骨 溃 都 应 该 立即 执行 重启 那个 崩溃 的 服务 器 过 
程 ， 以 便 系统 总 是 保持 主 用 和 备用 服务 器 的 同时 运行 。 所 以 ， 第 一 个 要 实现 的 技术 
就 是 主 备 监 控 技术 。 

主 备 监控 完成 之 后 ， 如 果 主 用 服务 器 发 生 故 障 ， 备 用 服务 器 又 如 何 来 接管 系统 呢 ? 
这 就 是 第 二 个 问题 ， 备 用 服务 器 能 够 接管 网 络 必 须 具 备 如 下 三 个 条 件 。 

QD 备用 服务 器 拥有 可 执行 的 和 主 用 控制 器 一 样 的 控制 器 软件 ; 

@ 备用 服务 器 必须 有 运行 时 所 需 的 配置 数据 ， 通 常 是 和 主 用 服务 器 相同 的 配置 数据 ; 

@ 备用 服务 器 和 被 控制 网 络 本 身 也 必须 保持 连接 。 

这 里 第 三 条 涉及 链 路 可 靠 性 问题 ， 不 在 这 里 讨论 。 第 一 条 ， 控 制 器 备用 服务 器 拥有 
和 控制 器 主 用 服务 器 相同 的 控制 器 软件 系统 ， 这 个 软件 系统 可 以 是 相同 的 软件 版 本 ， 也 
可 以 是 不 同 的 软件 版 本 ， 其 本 身 关 系 不 大 。 第 二 条 ， 需 要 主 备 拥有 相同 配置 数据 问题 。 
这 个 问题 相对 比较 复杂 ， 因 为 任何 运行 的 软件 要 想 工作 都 需要 一 个 正确 的 数据 。 对 于 控 
制 器 来 说 最 重要 的 数据 是 配置 数据 。 控 制 器 备用 服务 器 获得 这 些 数据 后 ， 利 用 自己 的 控 
制 器 软件 就 应 该 可 以 接管 系统 。 但 必须 有 一 个 前 提 ， 这 个 控制 器 软件 能 够 正确 识别 这 些 
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配置 数据 ， 就 是 所 谓 的 数据 兼容 性 。 当 然 ， 如 果 控 制 器 备用 服务 器 和 主 用 服务 器 的 软件 
版 本 是 同一 个 三 家 同一 个 版 本 的 ， 那 么 这 个 备份 数据 的 兼容 性 或 者 说 控制 器 备用 服务 器 
读 取 这 些 数据 就 不 会 有 什么 问题 。 既 然 读 取 这 些 数 据 没有 问题 ， 那 当然 就 可 以 继续 后 面 
的 配置 恢复 和 系统 恢复 工作 了 。 E 

上 面 讨 论 过 ， 备 用 控制 器 的 软件 版 本 可 能 与 主 用 控制 器 的 不 同 ， 可 能 比 主 用 控 
制 器 版 本 高 或 者 低 ， 那 么 此 时 数据 一 致 性 就 变 得 复杂 。 如 果 要 想 不 同 的 控制 器 软件 
版 本 能 读 取 和 理解 一 份 数 据 ， 就 需要 软件 设计 者 进行 精心 设计 ， 确 保 它 们 之 间 备 份 
的 配置 数据 能 够 被 正确 地 读 取 和 理解 。 当 然 ， 当 数据 不 能 被 正确 读 取 时 ， 通 常 需要 
在 版 本 之 间 的 数据 传递 过 程 中 增加 一 个 数据 格式 转换 部 件 ， 这 个 转换 部 件 可 以 把 数 
据 转 换 为 目标 控制 器 软件 版 本 能 够 读 取 的 格式 。 既 然 问 题 这 么 复杂 ， 为 什么 还 要 让 
不 同 版 本 之 间 同 步 数据 呢 ? 答案 是 在 软件 系统 升级 的 时 候 ， 不 得 不 在 不 同 版 本 之 间 
同步 数据 。 这 样 ， 在 相同 版 本 之 间 和 不 同 版 本 之 间 的 数据 同步 、 备 份 功能 都 是 可 靠 
性 需要 文 持 的 技术 。 

不 同 版 本 之 间 的 数据 同步 存在 升级 模式 和 降级 模式 两 种 模式 。 对 于 升级 模式 ， 数 
据 是 低 版 本 的 ， 而 目标 系统 是 高 版 本 的 ， 高 版 本 的 系统 读 取 低 版 本 的 数据 ， 一 般 不 会 
有 什么 问题 ， 这 种 也 就 是 前 向 兼容 技术 ， 就 是 说 高 版 本 系统 能 够 读 取 低 版 本 数据 。 对 
于 降级 模式 ， 也 就 是 低 版 本 系统 要 能 够 读 取 高 版 本 数据 ， 这 种 也 叫 作 后 向 兼容 技术 ， 
相对 就 比较 困难 。 设 计 上 一 般 采 用 类 似 TLV (Type-Length-Value， 一 种 通信 消息 的 定 
义 方 法 ) 模式 设计 ， 可 以 解决 前 后 向 兼容 问题 。 但 是 随 版 本 的 变化 ， 这 种 兼容 在 技术 
和 工程 上 实现 都 变 得 非常 困难 , 所 以 通常 的 前 后 向 兼容 都 仅仅 能 够 支持 邻近 几 个 版 本 
的 兼容 。 

解决 了 配置 数据 在 相同 版 本 和 不 同 版 本 之 间 的 兼容 问题 ， 也 就 使 得 备用 服务 器 至 
少 可 以 运行 起 来 了 。 相 同 版 本 的 保护 备份 是 最 为 常见 的 技术 ， 当 然 不 同 版 本 的 问题 在 
软件 升级 过 程 中 也 很 常见 ， 业 界 提出 的 ISSU 在 线 软件 升级 ) 技术 就 是 为 了 解决 以 上 
问题 。 现 在 控制 器 的 备用 服务 器 有 了 软件 也 有 配置 数据 ， 系 统 运行 起 来 后 ， 是 可 以 和 
转发 器 建立 连接 的 ， 因 为 配置 数据 中 保存 了 该 控制 器 到 底 和 哪些 转发 器 相连 以 及 各 种 
业务 的 配置 数据 。 

再 看 看 这 个 控制 器 备用 服务 器 是 如 何 接管 系统 的 。 在 倒 换 过 程 中 ， 转 发 器 可 以 
先 按照 原来 的 转发 流 表 〈( 原 来 的 主 用 服务 器 计算 生成 的 ) 进行 工作 ， 控 制 器 的 备用 
服务 器 并 没有 为 转发 器 计算 流 表 和 下 发 流 表 。 倒 换 后 ， 控 制 器 备用 服务 器 利用 配置 
数据 恢复 了 和 转发 器 的 连接 。 接 下 来 ， 它 会 收集 网 络 状态 信息 ， 包 括 拓扑 、 设 备 等 
信息 。 然 后 和 外 部 周边 邻居 建立 连接 ， 学 习 域 外 路 由 。 它 可 以 重新 计算 网 络 内 部 路 
径 ， 重 新 学 习 路 由 ， 生 成 路 由 表 ， 并 把 这 些 自己 生成 的 路 由 表 或 者 说 流 表 下 发 给 转 
发 器 ， 并 且 要 求 转发 器 老化 掉 原 来 的 流 表 。 上 述 讨论 的 备份 过 程 就 是 通常 说 的 温 备 
份 机 制 。 温 备份 机 制 的 典型 特征 是 仅仅 备份 配置 数据 ， 不 备份 运行 数据 。 运 行 数据 
是 指 系统 运行 时 产生 的 各 种 数据 ， 比 如 ， 各 种 路 由 协议 学 习 过 来 的 路 由 以 及 这 些 协 
议 的 状态 数据 等 。 这 个 倒 换 过 程 中 协议 邻居 会 间断 ， 并 需要 重建 邻居 ， 路 由 表 会 重 
新 学 习 计 算 并 下 发 ， 在 整个 业务 接管 过 程 中 ， 业 务 可 能 出 现 间 断 ， 接 管 过 程 的 时 间 
长 度 可 能 是 分 钟 级 别 。 
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与 温 备份 技术 相对 的 一 种 备份 技术 是 热 备份 。 热 备份 的 特征 是 : 运行 数据 也 进行 
备份 ， 倒 换 过 程 中 ， 协 议 邻 居 不 间断 ， 业 务 不 间断 ， 整 个 倒 换 过 程 时 间 比 温 备份 短 很 
多 。 热 备份 最 重要 的 是 备份 系统 平时 也 要 运行 ， 并 且 每 时 每 刻 都 在 接收 主 用 控制 器 的 
运行 数据 并 做 好 接管 的 准备 。 这 里 最 复杂 的 技术 是 如 何 保 证 协议 邻居 不 间断 问题 ， 尤 
其 是 面向 TCP 协议 (比如 BGP/OpenFlow 等 )， 是 个 非常 困难 的 难题 。 其 关键 在 于 如 何 
处 理 TCP 的 连续 的 序列 号 问题 ， 这 个 技术 传统 上 也 叫 NSR 技术 ， 即 不 间断 路 由 技术 。 
这 种 技术 在 业界 能 够 实现 并 实际 商用 的 厂家 很 少 ， 华 为 公司 实现 了 NSR 技术 ， 并 且 在 
设备 上 是 默认 运行 的 ， 在 中 国 和 欧洲 主要 的 大 的 运营 商都 现 网 部 署 并 经 过 了 多 年 的 考 
验 。 但 是 很 多 其 他 的 IP 设备 供应 商 到 目前 为 止 还 没有 支持 该 技术 。 其 原因 在 于 ， 技 术 
本 身 很 困难 ， 需 要 严格 的 工程 管理 能 力 ， 不 是 每 个 供应 商都 能 轻易 掌握 这 个 技术 的 。 
这 种 NSR 热 备 份 技术 可 以 应 用 到 控制 器 上 面 ， 是 解决 控制 器 服务 器 故障 问题 的 一 种 有 
效 手段 , 可 以 保证 故障 不 会 引起 失效 进而 导致 业务 损失 , 所 以 控制 器 通常 需要 支持 NSR 
热 备 份 技术 。 

前 面 控制 器 实现 技术 章节 介绍 过 控制 器 通常 不 是 仅 运 行 在 一 台 服 务 器 上 ， 而 是 运行 
在 服务 器 集群 上 ， 这 主要 是 因为 SDN 控制 器 需要 管控 大 规模 的 网 络 。 所 谓 控制 器 集群 ， 
是 指控 制 器 运行 在 多 台 服 务 器 上 ， 形 成 一 个 集群 系统 。 其 他 和 控制 器 通信 的 实体 ， 无 论 
是 管理 软件 还 是 周边 邻居 设备 ， 都 认为 这 个 多 服务 器 系统 是 一 个 控制 器 ， 是 一 个 系统 ， 
并 不 知道 具体 的 控制 器 内 部 有 多 台 服 务 器 。 前 面 介 绍 的 控制 器 主 用 备用 服务 器 系统 是 一 
个 由 主 备 服 务 器 构成 的 控制 器 集群 系统 。 然 而 控制 器 集群 通常 会 有 很 多 服务 器 ， 而 不 仅 
是 两 台 服 务 器 ， 由 多 服务 器 构成 的 控制 器 集群 系统 就 是 通常 所 说 的 分 布 式 集群 系统 。 在 
服务 器 集群 情况 下 ， 如 何 解 决 集群 中 任意 的 服务 器 故障 呢 ? 其 实 ， 对 照 上 面 介 绍 的 热 备 
份 技术 ， 服 务 器 集群 情况 下 解决 服务 器 故障 的 基本 原理 是 类 似 的 。 比 如 ， 一 个 简单 的 方 
案 ， 在 集群 内 把 所 有 服务 器 一 分 为 二 ， 一 组 为 主 用 服务 器 ， 另 外 一 组 为 备用 服务 器 ， 每 
个 主 用 服务 器 都 有 一 个 与 之 对 应 的 备用 服务 器 ， 任 何 一 台 服 务 器 故障 ， 都 采用 上 面 的 热 
备份 技术 就 可 以 解决 了 。 集 群 的 保护 倒 换 机 制 如 图 4-3 所 示 。 


SDN 控制 器 多 服务 器 集群 系统 
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图 4-3 SDN 控制 器 集群 系统 的 主 备 倒 换 机 制 


这 种 方案 通常 简单 易 行 ， 易 于 部 署 ， 达 到 了 热 备份 保护 效果 。 其 基本 原理 是 在 系统 中 
形成 主 备 服务 器 保护 对 ， 每 对 服务 器 的 保护 倒 换 机 制 都 如 上 面 两 台 主 备 服务 器 集群 系统 类 
似 。 这 样 可 以 有 效 地 解决 当 任何 一 台 服 务 器 故障 时 ， 系 统 保持 业务 不 间断 和 邻居 不 间断 。 

相对 于 采用 主 备 服 务 器 的 备份 方案 ， 还 有 一 种 备份 技术 方案 ， 即 基于 进程 级 别 的 保 
护 倒 换 。 每 台 服 务 器 并 行 运行 业务 主 进程 ， 同 时 也 运行 其 他 业务 的 备份 进程 。 主 备 进程 
备份 机 制 的 基本 原理 如 图 4-4 所 示 。 
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图 4-4 主 备 进程 备份 机 制 

这 些 业 务 进程 的 功能 不 同 ， 比 如 进程 A、 进 程 B、 进 程 C 是 不 同 功能 的 进程 。 这 样 ， 
每 台 服 务 器 平时 都 在 处 理 主 业 务 ， 也 都 在 处 理 其 他 进程 的 备份 业务 。 比 如 ， 图 中 的 服务 
器 1 在 处 理 业务 进程 A 的 功能 ， 同 时 也 在 备份 业务 进程 C; 服务 器 2 在 处 理 业务 进程 B 
的 功能 ， 同 时 也 备份 业务 进程 A。 相 当 于 每 台 服 务 器 平时 都 是 在 处 理 主 用 业务 。 当 一 台 
服务 器 崩 演 ， 运 行 在 其 上 的 主 业 务 进程 就 会 倒 换 到 其 他 服务 器 的 备份 业务 进程 上 ， 系 统 
会 把 这 个 备份 业务 进程 升级 为 主 用 业务 进程 ， 来 替代 刚刚 失效 的 那个 服务 器 上 的 该 业务 
的 主 进程 。 比 如 ， 如 果 服 务 器 1 故障 ， 业 务 进程 A 会 倒 换 到 服务 器 2 上 运行 。 同 时 ,分 
布 式 系统 中 间 件 会 为 失效 服务 器 上 的 备份 业务 进程 在 另外 合适 的 服务 器 上 重新 启动 一 个 
新 的 备份 业务 进程 ， 上 面 主 备 业 务 进程 倒 换 过 程 也 是 在 分 布 式 中 间 件 协调 下 完成 。 因 为 
涉及 部 署 、 倒 换 、 寻 址 、 通 信 等 系统 行为 的 重新 调整 ， 所 以 分 布 式 集群 的 控制 器 系统 HA 
机 制 需要 分 布 式 中 间 件 来 提供 。 

上 面 介 绍 了 服务 器 故障 的 元 余 保 护 倒 换 技 术 ， 包 括 温 备份 技术 和 热 备 份 技术 ， 实 现 
这 些 备 份 技术 背后 需要 有 服务 器 监控 技术 、 配 置 数据 备份 和 恢复 技术 、 运 行 数据 备份 和 
恢复 技术 、 倒 换 协 议 邻 居 不 间断 、 分 布 式 中 间 件 的 HA 等 技术 来 支撑 。 


4.2.2 ”软件 组 件 故障 的 可 靠 性 设计 


一 个 大 的 集群 系统 通常 由 很 多 功能 组 件 构成 ， 比 如 ， 协 议 处 理 组 件 ， 比 如 众多 南 向 
协议 (NETCONF, OpenFlow, PCE 等 )、 北向 协议 (RESTFUL、 SNMP、TELNET、 Netconf 
等 ), 还 有 东西 向 协议 (如 BGP、ARP 等 ), 而 且 内 部 还 有 很 多 资源 管理 和 路 径 计算 组 件 。 
我 们 肯定 不 希望 这 些 组 件 中 的 某 个 组 件 出 现 问题 ， 进 而 导致 系统 整体 崩溃 。 所 以 通常 选 
择 在 不 同 进程 部 署 这 些 组 件 , 使 得 某 些 软件 故障 仅仅 影响 局 部 ， 而 不 是 整体 系统 都 衣 溃 ， 
这 也 叫 作 故障 隔离 。 软 件 系统 故障 通常 表现 为 某 个 进程 月 泪 ， 某 个 功能 组 件 失效 ， 或 者 
进程 内 出 现 死 循环 等 各 种 不 可 预知 的 问题 。 控 制 嚣 是 个 复杂 的 集群 软件 ， 必 须 支 持 多 进 
程 隔 离 故 障 能 力 ， 组 件 功能 也 应 该 能 够 支持 独立 替换 。 那 么 这 个 软件 系统 到 底 该 如 何 解 
决 软件 内 的 故障 呢 ? 这 个 问题 的 解决 方案 通常 跟 特 定 的 系统 有 关 。 以 下 介绍 一 种 华为 公 
司 实现 的 控制 器 软件 可 靠 性 技术 ， 如 图 4-5 所 示 。 

这 是 华为 控制 器 的 一 个 典型 可 靠 性 部 署 架 构 。 与 服务 器 可 靠 性 一 样 ， 首 先 需 要 监控 
机 制 ， 没 有 监控 就 无 法 感知 故障 ， 所 以 监控 机 制 对 系统 非常 重要 。 如 图 4-5 所 示 ， 在 该 
系统 的 分 布 式 系统 中 间 件 一 层 ， 包 含 一 个 节点 监控 主 进 程 ， 这 个 主 进程 负责 监控 所 有 的 
集群 系统 中 的 软件 组 件 状 态 、 进 程 状态 ， 也 监控 所 有 的 集群 系统 的 节点 状态 。 除 了 一 个 
主 用 监控 进程 外 ， 还 有 两 个 备份 监控 进程 ， 并 且 部 署 在 不 同 服务 器 ， 这 是 为 了 确保 这 个 
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监控 进程 可 以 支持 同时 双 点 故障 时 ， 至 少 还 有 一 个 监控 进程 可 以 继续 对 系统 进行 监控 ， 
保证 系统 正常 工作 。 


He 现 务 六 衣 宕 
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4-5 控制 器 软件 可 靠 性 实现 技术 


再 看 看 图 中 的 资源 节点 进程 和 APP 进程 ， 都 部 署 了 一 个 主 用 进程 和 一 个 备用 进 
程 ， 并 且 运 行 在 不 同 的 服务 器 中 。 这 样 ， 当 任何 一 个 主 用 进程 崩溃 时 ， 通 过 备用 进程 
都 可 以 接管 业务 继续 执行 ， 并 且 保 证 是 NSR 机 制 的 无 颖 接管 ， 协 议 不 间断 。 运 行 时 ， 
主 用 进程 会 一 直 备份 运行 数据 给 备用 进程 , 系统 也 会 给 主 用 进程 和 备用 进程 都 下 发 配 
置 数据 ， 使 得 它们 能 够 完成 倒 换 工作 。 当 系统 监控 到 主 用 进程 崩溃 时 ， 会 发 送 一 个 备 
升 主 信息 给 备份 进程 ， 备 份 进程 会 立即 接管 系统 。 同 时 分 布 式 系 统 中 间 件 还 会 更 新 系 
统 内 部 的 通信 关系 表 , 以 确保 其 他 进程 的 组 件 能 够 正确 访问 到 新 的 主 用 进程 的 功能 组 
件 ， 并且 还 会 在 控制 器 集群 内 合适 的 位 置 重新 启动 一 个 备份 进程 ， 以 便 应 对 未 来 再 次 
发 生 故障 。 

如 果 同 时 双 点 故障 ， 主 用 备用 进程 都 崩溃 怎 么 办 ? 答案 是 分 布 式 系统 中 间 件 会 感知 
到 这 个 情况 ， 因 为 它 管理 着 系统 中 所 有 的 业务 进程 。 得 知 这 个 情况 后 ， 分 布 式 中 间 件 的 
部 署 模块 会 重新 在 集群 的 合适 位 置 启动 那些 同时 骨 泪 的 业务 进程 ， 重 新 下 发 配置 数据 ， 
走 温 备 份 的 业务 恢复 流程 。 此 时 ， 双 点 同时 故障 ， 一 主 一 备 的 系统 是 无 法 实现 NSR 的 效 
果 的 。 如 果 希 望 双 点 同时 故障 仍然 能 够 保持 NSR 能 力 , 只 要 部 署 两 个 备份 副本 就 可 以 了 ， 
但 是 系统 的 资源 和 开销 变 得 大 了 。 经 过 权衡 ， 我 们 认为 业务 进程 可 以 不 考虑 做 两 个 备份 
副本 。 当 然 ， 如 果 有 需要 ， 也 可 以 给 用 户 这 个 权利 ， 让 用 户 增加 更 多 资源 ， 对 备份 副本 
个 数 进行 修改 就 可 以 实现 双 点 同时 故障 的 NSR 效果 。 

上 述说 的 都 是 业务 进程 ， 再 看 一 下 分 布 式 系统 中 间 件 的 功能 组 件 ， 其 默认 部 署 了 两 
个 备份 副本 ， 目 的 是 让 这 个 分 布 式 系统 中 间 件 具备 应 对 系统 同时 双 点 故障 的 能 力 。 如 果 
说 控制 器 是 SDN 网 络 的 大 脑 , 那么 分 布 式 系统 中 间 件 就 是 这 个 大 脑 的 大 脑 。 这 个 分 布 式 
中 间 件 系统 和 控制 器 所 控制 的 网 络 没有 关系 , 它 是 控制 器 软件 系统 自己 的 基础 服务 系统 ， 
是 控制 器 集群 系统 本 身 的 管控 系统 ， 所 以 需要 能 够 提供 同时 双 点 故障 保护 能 力 。 也 就 是 
说 ， 当 系统 在 任何 情况 下 发 生 双 点 故障 时 ， 控 制 器 集群 系统 本 身 ( 多 服务 器 集群 系统 ) 
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的 管理 都 不 能 有 中 断 服务 ， 它 能 够 继续 管理 控制 器 自身 的 集群 系统 。 

上 面 介 绍 了 一 个 分 布 式 控制 器 集群 系统 的 软件 可 靠 性 机 制 。 控 制 器 集群 系统 本 身 的 
分 布 式 系统 中 间 件 非常 重要 ， 它 负责 系统 部 署 、 监 控 、 数 据 备 份 、 倒 换 等 机 制 。 这 个 分 
布 式 中 间 件 自身 的 可 靠 性 也 非常 重要 ， 所 以 要 能 够 应 对 同时 双 点 故障 。 而 业务 系统 通常 
部 署 主 备 系 统 , 可 以 应 对 单 点 故障 , 双 点 同时 故障 时 可 以 由 分 布 式 中 间 件 重新 恢复 业务 。 
这 里 仅仅 对 业务 进程 部 署 一 个 主 用 进程 一 个 备用 进程 ， 而 没有 像 前 面 监控 部 件 那样 部 署 
两 个 备用 进程 ， 原 因 是 资源 权衡 的 结果 。 如 果 对 所 有 业务 进程 都 部 署 两 个 备用 进程 ， 虽 
然 可 以 解决 同时 双 点 故障 问题 ， 但 也 消耗 了 更 多 资源 。 实 践 中 ， 客 户 可 以 根据 需要 部 署 
双 点 故障 业务 不 间断 的 高 可 靠 系统 ， 而 控制 器 不 需要 修改 软件 ， 仅 仅 是 把 系统 配置 为 业 
务 进 程 使 能 两 个 备用 进程 就 可 以 达到 期 望 效果 。 


4.2.3 ”控制 器 和 转发 器 之 间 的 通信 链 路 故障 的 可 靠 性 设计 


控制 器 和 转发 器 之 间 的 通信 和 链 路 故障 ， 相 当 于 人 的 中 枢 神 经 的 硝 骨 部 分 中 断 ， 大 
脑 昌 然 没 有 骨 溃 但 也 没有 用 了 。 解 决 这 个 问题 仍然 需要 宛 余 ， 把 控制 器 通过 多 条 链 路 
连接 到 被 控制 网 络 上 。 这 种 控制 通道 通常 可 以 走 专门 的 管理 控制 网 络 ， 也 可 以 走 带 内 
提供 的 控制 通道 ， 使 得 控制 器 和 转发 器 之 间 有 多 条 宛 余 路 径 ， 这 样 任何 一 条 链 路 故障 ， 
控制 器 都 可 以 通过 其 他 链 路 控制 网 络 。 通 常 ， 控 制 器 不 会 和 每 个 转发 器 都 有 一 个 物理 
连接 ， 而 上 只 是 和 其 中 的 几 个 转发 器 连接 ， 然 后 通过 这 几 个 转发 器 把 控制 报 文 转 发 给 需 
要 被 控制 但 是 却 没有 直接 物理 通路 的 转发 器 。 那 么 这 些 控制 报 文 在 转发 器 之 间 转 发 的 
路 由 表 是 谁 生 成 的 ?是 否 是 控制 器 生成 的 ?设想 一 下 ， 如果 是 控制 器 生成 了 这 些 路 由 ， 
是 否 会 发 生 当 网 络 出现 故 障 时 ， 控 制 器 没有 来 得 及 更 新 这 些 路 由 ， 却 需要 把 一 些 流 表 
下 发 给 这 些 转发 器 ? 下 发 的 这 些 流 表 正 是 为 了 修正 转发 这 些 流 表 数 据 所 需 的 数据 ， 这 
样 就 存在 一 个 鸡 生 和 蛋 还 是 蛋 生 鸡 的 问题 了 。 为 了 解决 这 个 问题 ， 在 转发 器 之 间 转 发 控 
制 报 文 的 流 表 是 不 能 由 控制 器 下 发 的 ， 就 是 说 控制 通道 所 依赖 的 转发 表 是 不 能 由 控制 
器 生成 的 ,那么 该 怎么 办 ? 这 个 过 程 其 实 就 需要 依赖 传统 的 IGP, 比如 ISIS 或 者 OSPF， 
来 负责 自 组 织 方 式 打 通 一 个 控制 通道 ， 任 何 情况 这 个 控制 通道 其 实 是 具有 传统 网 络 的 
分 布 式 控制 的 可 靠 性 能 力 的 。 这 样 通过 利用 控制 器 到 转发 器 的 多 条 控制 通道 连接 ， 并 
利用 传统 的 分 布 式 IGP 来 打通 控制 通道 ， 使 得 控制 器 和 转发 器 之 间 的 通信 和 能够 达到 传 
统 分 布 式 网 络 的 可 靠 性 能 


4.2.4 ”整个 控制 器 所 在 的 数据 中 心 崩溃 的 可 靠 性 设计 


了 风灾 备份 是 为 了 应 对 一 些 灾难 发 生 的 情况 。 控 制 器 集群 通常 要 支持 大 量 运行 数 
据 的 备份 ， 所 以 一 般 不 会 把 控制 器 集群 的 多 台 服 务 器 分 别 部 署 在 异地 的 数据 中 心 
(控制 器 集群 实现 本 身 并 不 应 该 限制 不 可 以 部 署 在 异地 )。 这 种 把 集群 服务 器 部 署 在 
一 个 数据 中 心 的 建议 主要 是 因为 性 能 问题 ， 异 地 备份 会 使 得 整个 系统 的 运行 速度 下 
降 ， 而 且 异 地 备份 数据 需要 面 对 广 域 网 不 确定 的 时 延 和 丢 包 等 问题 ， 使 得 大 量 的 运 
行 数据 备份 性 能 受到 影响 ， 进 而 影响 系统 的 实时 响应 速度 ， 所 以 通常 的 控制 器 集群 
会 部 署 在 一 个 数据 中 心 或 者 机 房 范围 内 。 如 何 解 决 整 个 数据 中 心 出 现 灾难 导致 控制 
器 崩溃 问题 呢 ? 比如 地 震 、 火 灾 、 电 源 等 故障 可 能 导致 整个 数据 中 心 失去 电力 ， 控 
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制 器 当然 也 就 无 法 运行 了 。 为 了 解决 这 个 问题 ， 通 常 选 择 在 异地 数据 中 心 部 署 一 个 
备份 控制 器 。 

这 里 需要 区 分 控制 器 集群 和 多 个 控制 器 有 何不 同 。 控 制 器 集群 是 一 个 控制 器 系统 ， 
只 是 运行 在 很 多 服务 器 上 ， 它 们 是 一 个 控制 器 ， 负 责 控 制 一 个 网 络 ， 是 一 个 软件 系统 。 
而 多 个 控制 器 则 是 互 不 相干 的 ， 每 个 控制 器 可 以 是 集群 也 可 以 不 是 ， 它 们 之 间 其 实 没 
有 什么 关系 。 就 好 像 在 美国 ATT 网 络 上 运行 一 个 控制 器 集群 和 中 国电 信和 网 络 上 运行 一 
个 控制 器 集群 ， 它 们 每 个 都 由 一 组 服务 器 运行 ， 但 是 它们 之 间 没 有 一 点 关系 ， 它 们 是 
两 个 控制 器 。 也 可 以 这 样 理解 : 在 一 个 路 由 器 设备 上 ， 有 两 个 主 控 板 ， 一 个 作为 主 用 ， 
一 个 作为 备用 ， 在 一 个 多 框 路 由 器 中 ， 有 很 多 主 控 板 ， 一 个 主 用 ， 多 个 备用 ， 但 是 这 
些 所 有 的 主 控 板 都 是 一 个 路 由 器 系统 ， 就 如 同 控制 器 有 很 多 服务 器 形成 集群 一 样 ， 仍 
然 是 一 台 设 备 。 而 在 组 网 过 程 中 ， 通 常 部 署 两 台 路 由 器 ， 接 入 设备 可 以 通过 双 归 属 接 
入 这 两 台 路 由 器 ， 这 两 台 路 由 器 对 外 是 两 台 设 备 ， 是 两 个 系统 ， 这 个 就 有 点 像 多 个 控 
制 器 了 。 

解决 元 灾 问 题 的 备份 控制 器 ， 是 指 网 络 控制 器 有 一 个 主 用 控制 器 ， 还 有 一 个 备用 控制 
器 〈 注 意 : 主 用 控制 器 和 备用 控制 器 是 两 台独 立 控制 器 ， 它 们 互 为 备份 。 前 面 讨论 的 
控制 器 主 用 服务 器 和 备用 服务 器 ， 是 一 台 控 制 器 内 部 的 两 台 服 务 器 ) ， 这 是 两 台 控制 
器 ， 部 署 在 异地 不 同 数据 中 心 。 这 样 ， 当 一 个 数据 中 心 出 现 灾难 ， 这 个 备用 控制 器 系 
统 可 以 接管 主 用 控制 器 来 完成 网 络 管控 任务 。 这 两 台 控制 器 的 目的 是 对 同一 个 网 络 在 
不 同时 期 进行 管控 ， 比 如 当主 用 控制 器 工作 正常 时 ， 备 用 控制 器 不 会 对 网 络 进行 任何 
控制 ， 但 是 当主 用 控制 器 因为 某 种 原因 出 现 崩 溃 宕 机 ， 备 用 控制 器 就 会 接替 工作 。 为 
了 能 够 达到 备份 目的 , 技术 原理 上 这 个 备用 控制 器 也 需要 获得 主 用 控制 器 的 配置 数据 ， 
以 便 实 现 主 用 控制 器 和 备用 控制 器 之 间 的 温 备份 能 力 。 主 用 控制 器 备份 给 备用 控制 器 
的 备份 数据 通常 是 业务 数据 ， 控 制 器 本 身 的 一 些 配 置 比如 IP 地 址 、 控 制 器 名 字 、 集 群 
内 服务 器 数量 等 信息 不 能 备份 给 备用 控制 器 ; 相反 ， 前 面 讨论 的 控制 器 集群 内 部 的 控 
制 器 主 用 服务 器 和 备用 服务 器 之 间 的 配置 数据 备份 则 是 全 部 的 配置 数据 备份 。 这 种 区 
别 还 是 因为 主 用 控制 器 和 备用 控制 器 是 两 台 控制 器 ， 而 控制 器 集群 内 的 主 用 服务 器 和 
备用 服务 器 是 一 个 控制 器 内 部 的 两 台 运 行 硬件 ， 这 个 两 台 服 务 器 属于 同一 个 控制 器 。 
当然 ， 主 控制 器 和 备用 控制 器 也 可 以 同时 备份 运行 数据 ， 使 得 它们 之 间 可 以 执行 热 备 
份 保护 机 制 。 控 制 器 集群 通常 是 一 个 厂家 提供 的 一 个 控制 器 集群 ， 但 是 多 控制 器 异地 
保护 则 未 必 是 同一 个 厂家 的 。 那 就 带 来 一 个 问题 ， 不 同 厂家 的 控制 器 互 为 备份 如 何 解 
决 数据 互 操作 能 力 ? 比如 华为 提供 的 主 用 控制 器 ， 如 果 另 外 一 家 控制 器 提供 商 提供 备 
用 控制 器 ， 它 们 之 间 如 何 进 行 配置 数据 和 运行 数据 备份 呢 ? 这 个 不 像 集群 系统 内 部 ， 
一 个 厂商 内 部 系统 ， 可 以 自己 解决 备份 数据 统一 性 。 为 了 解决 这 个 问题 ， 可 能 的 方案 
是 主 用 控制 器 和 备用 控制 器 之 间 通 过 标准 协议 进行 数据 备份 ， 这 样 只 要 大 家 按照 标准 
设计 就 可 以 互通 。 可 惜 的 是 ， 控 制 器 之 间 的 备份 数据 协议 还 没有 标准 化 ， 而 且 可 以 预 
期 这 个 标准 化 难度 比较 大 ， 短 期 是 难以 解决 的 。 所 以 通常 还 是 建议 主 用 控制 器 和 备用 
控制 器 都 使 用 同一 个 供应 商 的 好 一 些 ， 避 免 麻 烦 。 

那么 ， 主 用 控制 器 和 备用 控制 器 之 间 是 如 何 实现 数据 备份 的 呢 ? 一 个 方法 是 让 主 用 
控制 器 直接 和 备用 控制 器 进行 通信 ， 把 数据 直接 备份 给 备用 控制 器 。 但 这 个 方法 使 得 主 
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用 控制 器 和 备用 控制 器 耦合 了 ， 不 是 很 好 设计 。 因 为 如 果 要 多 部 署 几 个 备用 控制 器 ， 就 
需要 把 主 用 控制 器 和 多 个 备用 控制 器 建立 通信 关系 ， 并 实时 备份 数据 ， 这 样 就 需要 修改 
配置 ， 让 主 用 控制 器 感知 多 个 备用 控制 器 的 存在 ， 这 不 是 很 合理 。 一 个 比较 好 的 设计 方 
案 是 ， 主 用 控制 器 把 数据 写 入 一 个 中 间 数 据 库 系 统 ， 其 他 备用 控制 器 从 中 间 数 据 库 系统 
读 取 这 些 数据 并 恢复 系统 。 这 种 设计 的 基本 原理 如 图 4-6 所 示 。 


主 用 SDN 控制 器 备用 SDN 控制 器 


服 服 服 
务 务 务 
器 器 器 





备份 数据 恢复 数据 
性 一 二 一 


备份 数据 库 


图 4-6 主 备 控制 器 的 数据 备份 方法 设计 


这 种 设计 使 得 主 用 控制 器 备份 数据 到 这 个 中 间 数 据 库 系统 ， 看 不 见 备用 控制 器 
存在 ， 而 备用 控制 器 也 看 不 见 主 用 控制 器 存在 《不 是 真 的 看 不 见 ， 比 如 监控 软件 还 
是 要 感知 主 用 、 备 用 控制 器 状态 的 )。 这 种 设计 扩展 性 好 ， 只 是 这 个 中 间 的 数据 库 
系统 必需 是 一 个 高 性 能 的 分 布 式 数据 库 系统 ， 否 则 难以 支撑 控制 器 之 间 的 高 性 能 数 
据 备份 需求 。 

此 外 ,， 主 用 控制 器 和 备用 控制 器 之 间 需 要 一 个 监控 机 制 ， 这 个 监控 机 制 能 够 有 效 
地 监控 控制 器 的 状态 ， 备 用 控制 器 监控 主 用 控制 器 ， 主 用 控制 器 也 监控 备用 控制 器 。 
监控 可 能 不 仅仅 限于 连接 中 断 , 还 要 考虑 当主 用 控制 器 仍然 存活 , 但 是 其 服务 能 力 已 
经 无 法 完成 网 络 控制 ， 比 如 服务 器 数量 达 不 到 所 要 求 数 量 时 , 这 种 情况 下 也 应 该 触发 
倒 换 。 不过, 这 时 的 触发 倒 换 是 主 用 控制 器 主动 发 起 , 因为 只 有 它 自己 根据 资源 评估 ， 
发 现 自己 资源 数量 已 经 降低 到 不 能 满足 需求 的 资源 数量 时 ,就 主动 降 备 , 备用 控制 器 
升 主 接替 工作 。 

主 用 控制 器 和 备用 控制 器 机 制 可 以 有 效 地 解决 异地 容 灾 备 份 问题 ， 也 有 人 会 把 这 种 
技术 用 于 本 地 多 控制 器 部 署 ， 来 提高 SDN 网 络 的 可 靠 性 。 但 是 , 无论 用 于 什么 ， 都 还 有 
一 个 问题 ， 就 是 系统 的 双 主 问题 。 当 主 用 控制 器 和 备用 控制 器 的 通信 连接 中 断 ， 备 用 控 
制 器 会 升 主 ， 并 试图 控制 网 络 ， 而 此 时 主 用 控制 器 也 在 对 网 络 进行 控制 ， 该 如 何 解决 这 
个 问题 呢 ? 通常 有 几 个 解决 方案 。 第 一 个 方案 是 主 用 控制 器 和 备用 控制 器 的 监控 通道 覆 
盖 所 有 可 能 的 连接 ， 包括 通过 被 控制 网 络 进行 监控 报 文 转发 ， 这 样 ， 上 述 双 主 问 题 就 不 会 
发 生 。 如 果 双 主 ， 说 明 上 述 网 络 已 经 被 分 割 成 了 独立 的 孤岛 网 络 ， 双 主 也 没有 和 危害。 第 二 
个 方案 是 ， 既 然 是 元 灾 备 份 ， 备 用 升级 主 用 可 以 由 人 工 干预 ， 由 人 工 下 发 升 主 指令 。 这 个 
方案 的 缺点 是 需要 人 工 干预 ， 导 致 控制 器 倒 换 时 间 不 确定 。 因 为 可 能 是 晚上 , 无 人 值守 ， 
那 需要 等 管理 员 上 班 才能 下 达 倒 换 命令 ， 业 务 中 断 时 间 可 能 会 达 几 个 小 时 。 第 三 个 方案 
是 由 被 控制 网 络 进行 仲裁 ， 当 被 控制 的 转发 器 发 现 有 两 个 控制 器 试图 对 其 进行 控制 时 ， 
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可 以 反 向 发 送 一 个 事件 给 两 个 主 用 控制 器 ， 收 到 事件 的 主 用 控制 器 和 备用 控制 器 (现在 
也 认为 自己 是 主 用 ) 可 以 根据 一 定 规则 处 理 这 种 双 主 情况 。 其 中 ， 一 个 简单 的 办 法 是 保 
持原 来 的 主 用 ， 新 升级 为 主 的 控制 器 降 为 备用 控制 器 ， 另 外 一 个 方式 正好 相反 ， 新 的 主 
用 控制 器 保持 ， 旧 的 主 用 控制 器 降 备 。 当 然 ， 无 论 如 何 ， 设 计 人 员 定 义 一 个 默认 行为 ， 
并 预 留 一 个 调整 默认 行为 的 操作 接口 ， 问 题 就 可 以 得 到 解决 。 

另外 ， 作 为 灾 备 ， 到 底 该 选择 温 备 份 协议 还 是 热 备 份 协议 ， 取 决 于 客户 自己 的 需求 ， 
客户 可 根据 自己 对 可 靠 性 的 要 求 来 选择 ， 总 之 要 理解 温 备 份 和 热 备 份 的 区 别 和 各 上 自 达到 
的 效果 。 我 推荐 ， 对 于 认为 灾难 发 生 概 率 较 小 的 网 络 ， 考 虑 部 署 异地 温 备份 服务 器 就 可 
以 达到 要 求 。 理 由 是 本 来 就 是 极 小 概率 事件 ， 另 外 考虑 灾难 发 生 时 网 络 可 能 出 现 大 规模 
故障 ， 同 时 灾难 业务 恢复 时 间 分 钟 级 别 也 是 可 以 接受 的 。 


4.2.5 ”网络 节点 和 链 路 故障 的 处 理 


在 SDN 网 络 可 靠 性 问题 上 上， 前面 主要 讨论 和 控制 器 相关 的 故障 模式 ， 比 如 控制 器 
整体 故障 、 控 制 器 内 部 服务 器 故障 、 控 制 器 软件 故障 和 通信 链 路 故障 问题 。 下 面 讨 论 一 
下 网 络 本 身 的 节点 和 链 路 故障 的 处 理 。 

如 果 转 发 器 故障 或 者 转发 器 之 间 的 连接 故障 ， 业 务 就 会 受到 损失 ， 传 统 的 分 布 式 控 
制 面 会 根据 网 络 状 态 变 化 自动 重新 计算 路 由 ， 使 得 网 络 收 敛 ， 继 续 提供 网 络 服务 。 在 集 
中 控制 的 SDN 网 络 情况 下 , 当 网 络 内 部 的 拓扑 状态 变化 时 , 同样 地 需要 控制 器 进行 路 由 
重新 计算 ， 实 现 网 络 收 敛 。 这 两 者 的 区 别 仅 仅 是 谁 来 完成 故障 感知 和 路 由 重 计算 而 已 。 
当然 也 会 有 一 些小 的 区 别 , 一 方面 ，SDN 网 络 架 构 下 ，SDN 控制 器 仍然 可 以 给 转发 面 下 
发 两 条 FRR (Fast ReRoute， 快 速 重 路 由 )， 使 得 故障 发 生 时 ， 转 发 面 可 以 不 在 控制 器 控 
制 下 自动 完成 路 径 切 换 。 然 后 SDN 控制 器 根据 网 络 拓扑 变化 可 以 重新 计算 内 部 的 交换 
路 径路 由 ， 并 下 发 给 转发 器 。 另 一 方面 ， 由 于 SDN 控制 器 对 网 络 的 控制 ,实际 屏蔽 了 网 
络 内 部 的 交换 细节 。SDN 控制 器 自动 计算 网 络 内 部 的 交换 路 径 ， 并 且 会 对 网 络 内 部 的 交 
换 路 径 自 动 完 成 OAM 监控 部 署 。 比 如 可 以 使 用 MPLS 作为 网 络 内 部 交换 路 径 的 实现 技 
术 ，SDN 控制 器 就 会 自动 地 在 LSP 和 隧道 上 部 署 MPLS TP 的 OAM 监控 。 这 种 有 路 径 
就 有 监控 的 实现 ， 提 高 了 可 维护 性 ， 降 低 了 对 人 员 技 能 的 要 求 。 因 为 不 需要 人 工 部 署 监 
控 了 ， 也 不 需要 了 解 内 部 TPOAM 协议 细节 。 这 些 自动 部 署 的 监控 协议 不 仅 可 以 快速 检 
测 到 节点 故障 和 和 链 路 故障 ， 还 可 以 检测 到 服务 质量 下 降 的 问题 ， 比 如 丢 包 率 问题 、 时 延 
增 大 问题 。 通 过 自动 部 署 的 监控 来 完成 检测 ， 不 像 传统 网 络 需要 人 工 部 署 。 并 且 一 旦 监 
控 协 议 发 现 服务 质量 下 降 ， 会 立即 触发 相关 后 续 应 对 ， 比 如 进行 重 路 由 计算 或 者 发 起 故 
障 诊断 等 工作 。 总 之 , 在 SDN 网 络 架 构 下 ,转发 器 所 在 网 络 的 拓扑 变化 和 服务 质量 下 降 
问题 ， 会 利用 传统 标准 技术 来 解决 ， 但 是 会 解决 得 更 加 简单 ， 对 网 络 管理 员 来 说 ， 更 加 
易于 使 用 。 


4.2.6” 主 主 备份 模式 和 主 备 备份 模式 


前 面 讨论 的 控制 器 各 种 保护 技术 ， 基 本 上 都 谈论 到 主 备 模式 ， 一 个 主 用 部 件 ， 一 个 
备用 部 件 。 通 常情 况 下 ， 主 用 部 件 工 作 ， 备 用 部 件 并 不 处 理 业务 ， 而 是 当主 用 失效 时 才 
开始 把 自己 的 状态 改变 为 主 用 状态 ， 开 始 进行 业务 处 理 。 在 业界 还 谈论 一 种 主 主 备份 模 
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式 ， 也 可 以 简单 称 为 主 主 模式 ， 是 在 IT 行业 广泛 使 用 的 一 种 保护 备份 模式 。 这 里 简单 探 
讨 一 下 这 两 种 备份 模式 。 

主 主 模式 (active-active 模式 ) 是 一 种 负载 均 担 的 工作 方式 ， 在 很 多 分 布 式 软件 系统 
中 有 不 少 应 用 ， 就 是 工作 中 的 任何 一 个 系统 都 是 主 用 系统 ， 没 有 单纯 的 备用 系统 。 比 如 
一 个 分 布 式 系统 中 如 果 有 10 台 服 务 器 ， 则 这 10 台 服 务 器 每 个 都 在 处 理 业 务 ， 它 们 是 
一 种 负载 均 担 的 关系 。 当 其 中 一 台 服 务 器 出 现 故 障 时 , 这 人 台 故 障 服务 器 原来 处 理 的 业务 
会 被 分 担 到 其 他 服务 器 上 继续 处 理 。 

而 控制 器 集群 是 一 个 由 多 个 服务 器 构成 的 集群 系统 ， 这 个 集群 系统 实际 上 是 并 行 工 
作 的 ， 尽 管 可 以 选择 把 集群 中 的 服务 器 分 为 两 组 ， 一 组 主 用 服务 器 ， 一 组 备用 服务 器 ， 
采用 主 备 工 作 模 式 〈 如 图 4-3 所 示 )。 但 是 也 可 以 换 一 种 部 署 方式 ， 让 每 个 服务 器 都 负责 
一 部 分 业务 处 理 同时 也 负责 其 他 服务 器 备份 ， 是 一 种 主 主 模式 ， 就 是 上 面 提 到 的 基于 进 
程 的 保护 倒 换 方案 〈 如 图 4-4 所 示 )。 这 样 看 ， 集 群 内 每 台 服 务 器 都 是 在 处 理 业 务 ， 控 制 
器 集群 也 是 主 主 模式 ， 因 为 控制 器 集群 中 的 每 台 服 务 器 都 在 处 理 业务 。 

有 一 种 观点 认为 ， 图 4-4 所 示 的 控制 器 集群 方案 不 能 算是 主 主 模式 。 理 由 是 控制 器 
集群 内 的 服务 器 运行 了 备用 进程 ， 而 主 主 模式 不 应 该 有 备用 进程 存在 。 理 论 上 ， 软 件 程 
序 由 程序 和 数据 两 个 部 分 构成 。 而 不 管 采用 主 备 模式 还 是 主 主 模式 , 关键 是 数据 的 备份 ， 
而 不 是 程序 。 只 要 有 了 数据 的 副本 ， 在 哪里 都 可 以 运行 程序 来 处 理 这 些 数据 副本 ; 如 果 
没有 数据 副本 ,无 论 主 主 模式 还 是 主 备 模式 ， 都 无 法 恢复 业务 。 主 主 模式 强调 负载 均 担 ， 
对 于 一 些 计 算 量 较 小 的 业务 , 不 需要 负载 均 担 , 使 用 主 主 模式 和 主 备 模式 本 质 是 一 样 的 。 
在 这 种 观点 看 来 ， 主 主 模式 应 该 是 数据 有 备份 ， 而 所 有 程序 都 是 主 用 程序 ， 当 一 个 服务 
器 或 者 软件 部 件 故障 时 ， 另 外 一 个 或 者 多 个 正在 处 理 该 业务 的 主 用 程序 可 以 增加 其 处 理 
的 工作 量 ， 把 失效 部 件 的 原先 处 理 的 业务 承担 过 来 。 一 个 例子 是 ， 比 如 3 台 服 务 器 在 分 
别处 理 用 户 请 求 ， 服 务 器 1 处 理 1 一 10 用 户 请 求 ， 服 务 器 2 处 理 11 一 20 用 户 请 求 ， 服 务 
器 3 处 理 21 一 30 用 户 请 求 。 此 时 ， 如 果 服 务 器 3 故障 ， 可 以 简单 地 把 21 一 25 用 户 交 给 
服务 器 1 处 理 ，26 一 30 用 户 交 给 服务 器 2 处 理 。 这 种 备份 机 制 对 于 很 多 行业 是 一 种 高 效 
的 方法 。 但 是 对 于 控制 器 实现 则 有 一 些 限制 , SDN 控制 器 处 理 可 靠 性 通常 需要 NSR 机 制 ， 
以 确保 业务 的 快速 恢复 ， 所 以 通常 要 备份 运行 状态 数据 ; 而 如 果 在 一 个 工程 进程 内 同时 处 
理 主 用 数据 ， 并 处 理 备 份 过 来 的 运行 状态 数据 ， 这 样 的 程序 非常 难以 设计 ， 并 难以 维护 。 

前 面 分 析 的 多 控制 器 见 余 保护 的 灾 备 方案 , 一 个 为 主 用 控制 器 , 其 他 为 备用 控制 器 ， 
工作 在 主 备 模式 ， 而 非 主 主 模式 。 那 么 再 来 看 是 否 需要 主 主 模式 : 第 一 ， 部 署 这 些 控制 
器 不 是 为 了 解决 业务 处 理 能 力 瓶颈 问题 ， 业 务 处 理 能 力 瓶颈 问题 可 以 通过 控制 器 集群 增 
加 服务 器 来 解决 ， 不 需要 部 署 异地 控制 器 再 分 担 处 理 ， 第 二 ， 主 用 控制 器 的 部 署 位 置 通 
常 是 管控 网 络 的 一 个 最 佳 地 理 位 置 ， 异 地 部 署 的 控制 器 性 能 肯定 不 如 主 用 控制 器 ， 而且 
主 主 模式 需要 控制 器 之 间 进 行 数据 同步 以 保持 数据 一 臻 性， 需要 解决 复杂 的 数据 一 致 性 
问题 ， 同 时 还 有 实时 性 要 求 ， 这 都 导致 系统 变 得 无 比 复杂 。 所 以 ， 容 灾 备 份 不 应 该 采用 
主 主 模式 。 在 工程 实践 中 ， 建 议 考 虑 使 用 异地 控制 器 的 温 备 份 机 制 。 必 要 时 才 部 署 异地 
控制 器 的 热 备 份 ， 同 时 应 该 了 解 可 靠 性 是 要 成 本 的 。 

以 上 分 析 了 SDN 网 络 架构 的 主要 故障 模式 以 及 解决 这 些 故障 的 保护 倒 换 机 制 ， 这 
些 机 制 能 够 有 效 地 提高 SDN 网 络 的 可 靠 性 ， 使 得 SDN 网 络 可 以 达到 商用 水 平 。 
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4.3 ”SDN 网 络 和 传统 网 络 的 可 靠 性 


4.3.1 ”SDN 网 络 如 何 达到 传统 网 络 的 可 靠 性 


也 许 有 人 会 问 ，SDN 网 络 架构 能 和 否 达 到 和 分 布 式 控制 的 IP 网 络 相同 的 可 靠 性 ? 如 
果 不 能 ， 那 为 什么 说 SDN 网 络 架 构 好 ? 也 就 是 说 : 

QD 到 底 经 过 上 述 技 术 手段 SDN 网 络 的 可 靠 性 是 否 达到 了 分 布 式 网 络 架构 的 可 靠 性 
能 力 ， 如 何 才能 达到 ，; 

如 果 不 能 达到 传统 网 络 的 可 靠 性 ， 为 什么 还 要 搞 SDN 网 络 架构 。 

对 于 第 二 个 问题 ， 把 SDN 控制 器 和 SDN 网络 架 构 可 靠 性 提升 到 一 个 可 用 的 标准 ， 
比如 5 个 9 可 靠 性 就 够 了 ， 没 有 必要 追求 比 实际 要 求 更 高 的 可 靠 性 。 提 升 可 靠 性 是 需要 
成 本 的 。SDN 网 络 架构 吸引 客户 的 不 是 提升 可 靠 性 ， 而 是 其 他 价值 ， 前 面 已 介绍 过 。 

如 果 我 们 实现 了 前 面 介绍 的 各 种 SDN 可 靠 性 技术 ， 可 能 仍然 无 法 与 传统 的 分 布 式 
网 络 架 构 的 可 靠 性 相 媲美 ， 但 有 几 个 可 能 的 技术 方案 可 以 解决 这 个 问题 。 

第 一 种 方案 ， 采 用 全 分 布 式 ， 把 控制 器 分 布 在 所 有 转发 器 的 控制 器 单 板 上 面 运行 ， 
这 样 的 分 布 式 架构 是 可 以 达到 传统 分 布 式 可 靠 性 的 。 但 是 这 个 方案 本 质 上 就 回 退 到 了 传 
统 分 布 式 控 制 面 架构 ，SDN 价值 也 就 没有 了 ， 所 以 不 推荐 这 种 方式 。 

第 二 种 方案 ， 考 虑 混合 组 网 控制 在 网 络 上 车 加 SDN 控制 器 ， 同 时 保留 传统 的 分 布 
式 控 制 面 。 这 种 方案 可 以 让 很 多 创新 业务 通过 SDN 控制 嚣 来 完成 , 而 传统 的 分 布 式 控制 
系统 保留 下 来 ， 可 以 保证 网 络 具 有 传统 的 分 布 式 网 络 的 可 靠 性 。 这 个 方案 有 研究 价值 ， 
不 仅 可 以 提高 可 靠 性 ， 还 具有 商业 部 署 价值 。 现 实 网 络 已 经 海量 地 部 署 了 传统 的 分 布 式 
网 络 ， 不 能 短期 内 把 它们 都 升级 到 SDN 网 络 架 构 ， 所 以 需要 慢 慢 地 渐进 地 部 署 SDN 控 
制 器 到 网 络 上 。 这 种 迁移 方案 需要 保留 传统 网 络 分 布 式 控制 面 和 业务 ， 同 时 先 部 署 一 个 
SDN 控制 器 ， 建 立 好 控制 器 的 连接 之 后 ， 可 以 先 通过 SDN 控制 器 收集 网 络 信息 ， 比 如 
拓扑 、 告 警 等 。 如 果 控 制 器 运行 得 不 错 ， 可 以 让 SDN 控制 器 试 着 部 署 一 些 业 务 ， 比 如 让 
它 也 部 署 几 个 业务 到 网 络 上 试验 一 下 。 如 果 效 果 不 错 ， 没 有 问题 ， 可 以 让 SDN 控制 器 再 
多 部 署 一 些 业务 ， 把 分 布 式 控制 的 业务 部 分 迁移 给 控制 嚣 负责。 这样， 逐渐 地 可 以 把 现 网 
的 业务 都 迁移 到 控制 器 上 来 集中 控制 。 这 个 演进 部 署 过程 , 就 是 一 个 混合 组 网 控制 模式 ， 
为 转发 器 上 的 转发 业务 既 具 有 分 布 式 控制 面 生成 的 也 有 集中 的 SDN 控制 器 控制 的 。 

那 混合 组 网 如 何 工作 呢 ? 混合 组 网 可 分 为 严格 登 加 模式 和 非 严格 登 加 模式 。 严 格 生 
加 模式 的 混合 组 网 指 的 是 ， 控 制 器 控制 的 所 有 业务 ， 在 分 布 式 控 制 面 也 需要 支持 所 有 这 
些 业务 的 控制 ， 转 发 器 自行 选择 采用 哪个 控制 面 下 发 的 数据 进行 工作 。 这 种 严格 登 加 模 
式 由 于 有 传统 分 布 式 控制 面 的 存在 ， 所 以 网 络 的 可 靠 性 和 传统 分 布 式 网 络 的 可 靠 性 是 
一 致 的 。 另 外 一 种 非 严 格 考 加 模式 ， 是 指 允 许 SDN 控制 器 控制 的 业务 和 分 布 式 控制 面 
控制 的 业务 有 所 差异 。 尤 其 在 同一 时 间 里 ， 控 制 器 可 能 先 实现 某 些 创新 业务 的 控制 ， 
这 些 业务 可 以 在 网 络 中 试 运行 直至 成 熟 部 署 ， 满 足 业 务 快速 创新 要 求 。 此 时 ， 转 发 器 
上 面 支持 的 分 布 式 控制 面 并 不 支持 这 些 控 制 器 所 控制 的 创新 业务 ， 只 支持 一 些 传统 业 
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务 的 分 布 式 控制 。 这 种 非 严 格 钱 加 模式 的 ， 对 于 创新 业务 的 可 靠 性 由 于 只 有 控制 器 进 
行 处 理 , 所 以 比 起 分 布 式 控制 来 说 会 低 一 些 。 对 于 这 种 非 严 格 琶 加 模式 , 如 果 要 求 SDN 
控制 器 所 实现 和 控制 的 业务 也 达到 传统 分 布 式 可靠 性 的 要 求 ， 可 以 慢 慢 地 在 分 布 式 控 
制 面 也 实现 这 些 业 务 ， 同 时 部 署 两 套 控制 面 ， 转 变 为 严格 个 加 模式 ， 就 能 够 达到 传统 
分 布 式 的 可 靠 性 。 不 过 ， 中 间 有 个 时 间 间 阶 ， 这 个 时 间 内 创新 业务 无 法 达到 传统 的 分 
布 式 的 可 靠 性 。 

然而 ， 如 果 采 用 严格 释 加 模式 的 混合 组 网 ，SDN 网 络 架 构 的 价值 (简化 网 络 、 支 持 
业务 快速 创新 等 ) 一 个 也 没有 实现 。 因 为 所 有 的 业务 都 要 在 分 布 式 控制 面 实现 和 部 署 ， 
那 既 不 能 加 速 业务 创新 ， 也 不 能 简化 网 络 ， 反 而 增加 了 控制 器 的 开发 负担 。 此 外 ，SDN 
控制 器 部 署 业务 和 分 布 式 控制 部 署 业务 如 何 保证 一 致 性 ， 确 保 一 个 控制 面 裔 溃 时 另外 一 
个 控制 面 能 够 正确 运行 都 面临 巨大 挑战 ， 所 以 只 有 在 一 些 特定 的 解决 方案 层面 需要 考虑 
支持 这 种 严格 共 加 模式 。 那 么 剩 下 来 的 就 只 有 非 严 格 又 加 模式 的 混合 组 网 。 这 个 模式 确 
实 有 价值 ， 因 为 能 够 解决 现 网 迁移 演进 的 问题 ， 同 时 也 能 够 解决 业务 快速 创新 问题 ， 所 
以 SDN 网 络 架 构 设 计 需 要 考虑 支持 非 严 格 倒 加 模式 来 支持 网 络 迁 移 和 演进 。 但 是 , 并 不 
推荐 后 面 继续 在 分 布 式 控制 系统 中 增加 SDN 控制 器 已 经 实现 的 业务 , 原因 很 简单 , 这样 
做 导致 SND 的 价值 大 打折 扣 ， 必 要 性 不 大 。 

当然 ， 对 于 第 二 种 方案 ， 在 前 面 讨论 的 过 程 中 已 经 强调 ， 是 有 一 定 的 研究 价值 和 意 
义 的 。 这 种 方案 确实 可 以 解决 一 定 的 问题 。 在 特定 的 解决 方案 场景 ， 可 以 根据 可 靠 性 要 
求 考 虑 一 些 特 定 的 混合 控制 方案 。 通 常 的 网 络 控制 分 为 网 络 业务 控制 和 网 络 内 部 交换 路 
径 的 控制 。 比 如 对 于 网 络 内 部 交换 路 径 的 控制 器 , 如 果 采 用 MPLS 的 LSP 作为 交换 路 径 ， 
可 以 考虑 在 基础 网 络 同时 部 署 LDP 分 布 式 路 由 协议 。 这 样 控制 器 完成 内 部 的 交换 路 径 的 
计算 和 生成 ， 如 果 控 制 器 完全 失效 ， 转 发 器 可 以 自行 做 出 选择 ， 全 部 切换 回 LDP 生成 
LSP 交换 路 径 。 用 这 种 技术 可 以 有 效 地 解决 全 部 控制 器 失效 带 来 的 影响 。 对 于 网 络 业务 
路 由 的 处 理 ， 也 有 类 似 方法 ， 部 署 控制 器 完成 网 络 业务 路 由 的 计算 和 处 理 外 ， 同 时 部 署 
分 布 式 业 务 路 由 协议 ， 比 如 MP BGP/REMOTE LDP 等 。 转 发 器 配置 为 优选 控制 器 的 业 
务 路 由 ， 当 控制 器 失效 时 ， 则 转发 器 优选 本 地 分 布 式 业务 路 由 协议 学 习 的 业务 路 由 ， 从 
而 达到 保护 目的 。 这 样 的 解决 方案 尽管 保证 了 整个 网 络 的 可 靠 性 达到 传统 分 布 式 网 络 的 
可 靠 性 ， 但 是 显著 地 增加 了 解决 方案 实现 的 复杂 度 、 网 络 运行 维护 的 复杂 度 ， 通 常 并 不 
建议 这 样 部 署 。 

所 以 ， 总 结 起 来 ， 要 使 SDN 网 络 的 可 靠 性 达到 传统 分 布 式 网 络 的 能 力 ， 其 技术 就 
是 传统 分 布 式 网 络 架 构 本 身 。 如 果 看 重 分布 式 网 络 架构 的 可 靠 性 属性 ， 就 没有 必要 部 署 
SDN 网 络 架 构 。 比 如 ， 在 军事 领域 ， 分 布 式 网 络 架 构 就 是 一 种 不 错 的 选择 ， 因 为 无 中 心 
的 指挥 中 心 才 是 最 为 可 靠 的 。 


4.3.2 ”传统 网 络 并 不 都 是 全 分 布 式 架构 
传统 网 络 在 设计 之 初 , 确实 是 全 部 采用 了 分 布 式 架构 。 比 如 传统 的 IGP 路 由 协议 , 采 
用 全 分 布 式 计算 架构 ， 每 台 路 由 器 可 以 根据 自己 学 习 到 的 拓扑 数据 独立 地 进行 路 由 计算 ， 


网 络 中 的 任何 一 台 或 者 多 台 路 由 器 故障 ， 网 络 仍然 能 够 提供 最 大 的 连接 能 力 。 而 传统 的 
BGP 路 由 协议 设计 ， 也 是 一 种 全 分 布 式 架构 ， 所 有 的 运行 BGP 路 由 协议 的 路 由 器 实现 全 
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连接 ， 互 相交 换 路 由 ， 确 保 当 任何 一 台 多 台 路 由 器 故障 时 ， 网 络 中 BGP 路 由 能 够 自动 收 
敛 , 保持 最 大 的 连接 能 力 。 其 他 很 多 路 由 协议 也 都 有 类 似 的 分 布 式 控制 架构 的 设计 和 实现 。 
下 面 看 一 下 BGP 的 部 署 情况 ， 如 图 4-7 所 示 。 





图 4-7 BGP 的 IBGP 全 连接 示意 


图 中 显示 了 在 一 个 AS 10989 内 ， 有 A、B、C、D、E 五 台 路 由 器 构成 的 一 个 网 络 ， 
根据 BGP 要 求 ， 这 些 路 由 器 需要 建立 IBGP 全 连接 ， 因 为 只 有 这 样 ， 网 络 内 部 的 路 由 器 
B、D、E 才能 学 习 到 网 络 外 部 的 其 他 自治 系统 的 路 由 ， 使 得 穿 过 该 网 络 的 IP 流量 或 者 
自治 系统 本 地 网 络 希 望 访问 外 部 网 络 的 流量 , 才能 被 网 络 内 部 的 路 由 器 B、D、E 根据 此 
路 由 正确 转发 出 去 。 这 样 , 在 一 个 自治 系统 内 部 如 果 有 nn 台 路 由 器 , 那么 需要 建立 nCn-1) 
有 2 个 连接 :如果 n 比较 大 ， 比 如 n=100 台 路 由 器 ， 那 么 需要 建立 4950 个 IBGP 连接 。 试 
想 在 一 个 网 络 建立 如 此 大 规模 的 IBGP 连接 对 于 管理 维护 是 个 相当 复杂 的 问题 。 而 现在 
运营 商 网 络 的 核心 骨干 网 ， 通 常 都 有 上 百 台 路 由 器 的 规模 ， 显 然 这 样 做 是 不 可 行 的 。 所 
以 ， 标 准 BGP 对 此 进行 了 优化 ， 在 网 络 中 增加 了 一 个 BGP RR (BGP Route Reflector， 
BGP 路 由 反射 器 )。BGP RR 的 工作 原理 如 图 4-8 所 示 。 


EBGP 





虚线 是 IBGP 连接 


图 4-8 BGP RR 的 工作 原理 


增加 了 BGP RR 的 网 络 的 工作 原理 是 ， 只 需要 网 络 中 一 台 路 由 器 设置 为 BGP RR 的 
服务 器 (BGP RR 反射 器 )， 其 他 所 有 路 由 器 (A、C、D、E) 设置 为 BGP RR 的 客户 端 ， 
这 样 ， 当 路 由 器 A 和 路 由 器 C 学 习 到 的 外 部 网 络 路 由 都 发 送 给 B 路 由 器 时 , B 路 由 器 把 
这 些 路 由 反射 给 D 和 了 ,同时 把 从 C 学 习 到 的 BGP 路 由 反射 给 A, 把 从 A 学 习 到 的 BGP 
路 由 反射 给 C， 这 样 ， 全 部 网 络 设备 都 有 了 外 部 网 络 的 路 由 ， 而 此 时 网 络 中 建立 的 BGP 
邻居 数量 大 大 降低 了 ， 如 果 网 络 中 仍然 是 n 台 路 由 器 ， 这 时 IBGP 的 连接 数量 只 有 xz-1 
个 ， 如 果 n=100， 只 需要 建立 99 个 IBGP 连接 。 这 显然 降低 了 网 络 的 运行 维护 的 难度 ， 
大 大 地 提升 了 网 络 运行 维护 的 效率 。 但 是 ， 这 里 产生 了 一 个 可 靠 性 问题 : 在 图 4-7 中 ， 
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由 于 所 有 设备 之 间 建 立 全 连接 的 IBGP， 所 以 任何 一 台 路 由 器 或 者 多 台 路 由 器 故障 ， 网 
络 能 够 快速 自动 恢复 ， 也 就 是 拥有 全 分 布 式 架构 的 可 靠 性 ， 相 对 地 ， 在 图 4-8 中 ， 由 于 
采用 了 集中 的 BGP RR 来 进行 路 由 反射 ， 如 果 这 个 BGP RR 路 由 器 故障 ， 所 有 的 BGP 
路 由 就 中 断 了 ， 全 网 就 无 法 进行 外 部 网 络 流量 的 转发 。 换 名 话说 ， 所 有 穿 过 该 网 络 的 流 
量 和 所 有 本 地 外 出 流量 基本 都 中 断 了 。 

为 了 解决 BGP RR 路 由 器 故障 的 问题 ， 通 常 需要 在 一 个 自治 系统 内 部 部 署 两 台 BGP 
RR〔 如 图 4-9 所 示 )。 


E, BGP RR 


图 4-9 部署 两 台 BGP RR 的 自治 系统 示意 





这 种 情况 下 ， 一 个 自治 系统 内 部 需要 建立 的 连接 数量 相当 于 2(n-1) 个 ， 如 果 网 络 
中 有 100 台 路 由 器 ， 需 要 建立 198 条 IBGP 连接 ， 数 量 上 仍然 比 全 连接 要 少 很 多 。 当 其 
中 一 台 BGP RR 故障 ， 比 如 B 故障 了 ， 网 络 流量 不 会 中 断 ， 因 为 EE 作为 BGP RR 仍然 能 
够 正确 反射 路 由 。 如 果 两 个 BGP RR 都 出 现 故障 ， 当 然 网 络 又 会 失效 了 。 解 决 办 法 是 根 
据 实际 可 靠 性 需求 来 部 署 两 个 或 者 多 个 BGP RR。 但 是 无 论 如 何 ， 采 用 了 BGP RR 的 架 
构 使 得 网 络 的 IBGP 数量 从 O(n ) 降 低 为 O(n)。 

在 已 经 成 为 全 球 通信 基础 设施 的 互联 网 上 ， 各 大 运营 商 的 骨干 网 大 部 分 都 采用 了 
BGP RR 架构 。 它 已 经 支撑 了 全 球 几 乎 所 有 的 骨干 通信 流量 几 十 年 ， 其 可 靠 性 机 制 得 到 
了 验证 。 这 种 基于 BGP RR 的 网 络 架 构 本 质 上 和 SDN 控制 器 集中 控制 的 架构 是 一 样 的 ; 
SDN 网 络 架 构 下 ， 如 果 SDN 控制 器 失效 ， 网 络 将 失控 ， 所 以 需要 部 署 多 台 SDN 控制 器 
作为 备份 保护 ; BGP RR 的 网 络 架 构 ， 同 样 地 ， 如 果 BGP RR 失效 ， 网 络 将 无 法 提供 服 
务 ， 所 以 需要 部 署 两 台 或 者 多 台 BGP RR 来 解决 可 靠 性 问题 。 


【本 章 小 结 】 


本 章 就 SDN 网 络 可 靠 性 的 若干 问题 ， 给 出 了 详细 的 分 析 ， 包 括 SDN 网 络 架构 下 存 
在 的 五 种 主要 故障 模式 : 控制 器 服务 器 故障 、 控 制 器 软件 部 件 故障 、 控 制 器 和 转发 器 通 
信 故 障 、 控 制 器 所 在 数据 中 心 发 生 灾难 、 转 发 网 络 故障 。 同 时 ， 也 给 出 了 五 种 故障 模式 
的 应 对 解决 方案 ， 包 括 通过 控制 器 集群 解决 控制 器 服务 器 故障 和 控制 器 软件 故障 ， 通 过 
多 链 路 连接 方式 解决 通信 故障 问题 ， 通 过 异地 多 控制 器 来 解决 异地 容 灾 问题 ， 通 过 控制 
器 对 网 络 进行 实时 的 故障 感知 和 收敛 。 

同时 也 对 一 些 诸如 主 主 模式 、 分 布 式 控制 网 络 和 SDN 网 络 架构 可 靠 性 能 力 的 差 
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异 做 出 了 一 些 判 断 : 控制 器 集群 架构 可 以 采用 主 备 服务 器 模式 ， 也 可 以 采用 主 主 模式 ， 
异地 容 灾 的 多 控制 器 架构 则 没有 必要 使 用 主 主 模式 。SDN 网 络 架 构 的 可 靠 性 要 想 达 
到 分 布 式 控制 网 络 的 可 靠 性 的 唯一 方法 就 是 保留 一 套 完整 的 分 布 式 控制 面 ,那么 SDN 
的 价值 也 就 基本 没有 了 ， 所 以 建议 考虑 部 署 非 严 格 合 加 模式 的 混合 组 网 方案 。 长 期 来 
看 ,只 要 控制 器 能 达到 指定 可 靠 性 , 就 没有 必要 一 定 要 追求 达到 传统 分 布 式 可 靠 性 的 
目标 。 

最 后 解释 了 其 实在 当前 的 电信 和 网络 中 ， 也 存在 类 似 集中 控制 的 网 络 架 构 ， 比 如 BGP 
RR 的 设计 。 而 采用 多 BGP RR 互 为 保护 备份 的 网 络 架 构 已 经 在 网 络 中 成 熟 部 署 应 用 几 
十 年 , 很 好 地 支撑 了 全 球 通信 网 络 的 各 种 应 用 。 这 个 实例 解释 了 人 们 没有 必要 对 SDN 网 
络 的 可 靠 性 过 度 担 心 。 














第 5 半 
SDN 网 络 收 纹 问 题 





5.1 网 络 收 敛 时 间 分 析 
5.2 提升 SDN 网 络 收敛 时 间 的 技术 
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5.1 网 络 收敛 时 间 分 析 


5.1.1 网 络 收敛 时 间 是 网 络 的 一 个 重要 性 能 指标 


网 络 收敛 时 间 ， 是 指 当 网 络 状 态 发 生变 化 时 ， 在 网 络 控制 系统 的 帮助 下 ， 网 络 能 
恢复 到 正常 服务 所 需 的 时 间 。 比 如 ， 当 网 络 中 一 个 设备 的 某 个 链 路 出 现 故障 ， 无 法 提供 
转发 服务 ， 那 么 原来 在 该 链 路 上 转发 的 流量 切换 到 其 他 能 够 正常 工作 的 路 径 上 。 所 有 原 
来 经 过 该 链 路 转发 的 流量 的 路 由 全 部 更 新 完成 ， 重 新 选择 了 其 他 的 路 径 进 行 流量 转发 。 
在 这 个 过 程 中 ， 从 故障 发 生 时 刻 起 ， 到 最 后 流量 全 部 重新 路 由 到 其 他 路 径 上 的 时 间 ， 称 
为 网 络 收敛 时 间 。 当 然 ， 在 整个 收敛 过 程 中 ， 最 重要 的 是 需要 一 个 实时 控制 系统 ， 对 系 
统 进 行 实时 控制 。 实 时 控制 系统 感知 网 络 状态 变化 ， 根 据 网 络 状态 重新 生成 路 由 ， 下 发 
给 转发 引擎 ， 从 而 完成 流量 从 有 旧 路 径 到 新 路 径 的 切换 。 

网 络 收敛 时 间 一 直 以 来 是 网 络 的 一 个 重要 性 能 指标 。 网 络 由 于 各 种 原因 出 现 网 络 状 
态 变化 ， 比 如 设备 硬件 故障 、 设 备 软件 故障 、 光 纤 被 施工 控 断 、 机 房 电 源 断 电 等 原因 ， 
那么 在 收敛 时 间 窗 内 ， 部 分 用 户 的 业务 数据 转发 可 能 会 受到 影响 ， 比 如 丢 包 、 环 路 等 。 
为 了 减少 网 络 故 障 对 业务 的 影响 ， 网 络 收敛 时 间 越 短 越 好 ， 时 间 越 短 对 用 户 业 务 的 影响 
也 就 越 少 。 传统 的 收敛 是 通过 分 布 式 控制 面 来 完成 整 网 收敛 的 。 而 SDN 既然 是 网 络 架 构 
的 一 次 重 构 ， 是 一 种 新 的 网 络 架 构 ， 我 们 自然 不 希望 收敛 时 间 出 现下 滑 ， 收 敛 时 间 需 要 
能 够 和 传统 网 络 的 收敛 时 间 相 当 。 

5.1.2 ”传统 网 络 的 收敛 时 间 分 析 

图 5-1 给 出 了 传统 分 布 式 网 络 收敛 的 过 程 和 各 个 阶段 的 时 间 段 划分 。 整 个 收敛 过 程 

受到 以 下 几 个 时 间 的 影响 ， 故 障 感知 时 间 寻 ， 故 障 扩散 时 间 2， 路 由 计算 时 间 BB， 转发 


表 加 载 时 间 #4， 就 是 说 总 体 上 收敛 时 间 匡 t1+12+13+4。 当 然 这 个 t 时 间 越 短 越 好 ， 必 须 
努力 缩短 妇 、 雁 、3、 要 ， 以 保证 能够 达到 用 户 期 望 。 


2. 故 障 扩散 ， 通 知 所 有 节点 故障 信息 
3. 所 有 节点 进行 路 径 计算 
> 3 4. 刷 新 路 由 表 





图 5-1 ”传统 分 布 式 网 络 收敛 时 间 分 析 
以 下 以 一 个 自治 系统 内 网 络 收敛 为 例 ， 来 分 析 传 统 分 布 式 网 络 收敛 的 过 程 。 
通常 ， 一 个 系统 内 的 链 路 或 者 设备 出 现 故障 时 ， 最 靠近 故障 点 的 设备 会 首先 感知 到 
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这 个 状态 变化 。 比 如 ， 如 果 链 路 中 断 ， 那 么 设备 会 通过 链 路 层 协 议 感知 到 链 路 出 现 了 故 
障 。 然 而 ， 链 路 层 协 议 通 常 的 故障 感知 时 间 一 般 为 秒 级 ， 例 如 正常 的 PPP 协议 需要 30s 
感知 链 路 中 断 ， 即 使 配置 了 快 检 测 ， 有 的 厂家 可 以 设置 为 3s 感知 链 路 中 断 。 为 了 解决 此 
类 故障 感知 时 间 长 的 问题 ，IETF 定义 了 类 似 BFD 这 样 的 专门 监控 协议 ， 使 得 故障 感知 
时 间 可 以 在 毫秒 级 别 。 但 是 对 于 像 以 太 网 络 ， 其 本 身 根 本 就 没有 检测 链 路 中 断 的 机 制 。 
在 某 些 组 网 场景 下 ， 比 如 路 由 器 之 间 的 以 太 链 路 是 通过 交换 机 网 络 连接 在 一 起 的 ， 那 么 
以 太 网 交换 机 之 间 的 链 路 中 断 ， 路 由 器 上 的 以 太 口 还 都 是 UP 状态 ， 路 由 器 设备 无 法 感 
知 链 路 中 断 。 为 解决 这 个 问题 ，IETF 定义 了 新 的 专门 的 监控 协议 一 一 ETH OAM 协议 ， 
用 于 以 太 链 路 检测 ， 使 得 链 路 故障 感知 时 间 可 以 在 几 百 毫秒 或 者 更 短 。 类 似 地 ， 针 对 
MPLS 网 络 ，TPOAM 协议 可 以 监控 网 络 故障 ， 检 测 时 间 也 是 毫秒 级 别 。 

当然 ， 其 他 的 故障 ， 比 如 设备 故障 ， 邻 居 设 备 感 知 其 故障 通常 也 是 通过 协议 来 进行 
的 。 链 路 层 协 议和 应 用 层 协 议 都 可 以 感知 这 个 故障 ， 以 最 坏 情况 考虑 只 靠 一 个 协议 检测 ， 
故障 感知 可 能 秒 级 ， 最 好 情况 考虑 部 署 专门 监控 协议 ， 故 障 感知 时 间 大 概 毫秒 级 别 。 

另外 一 种 故障 是 接口 DOWN。 这 种 故障 通常 会 检测 得 非常 快 , 设备 本 身 的 设备 管理 
会 立即 发 现 接 口 DOWN， 并 通报 该 状态 给 设备 控制 系统 。 

总 结 起 来 ， 不 同 的 监控 方法 有 不 同 的 故障 感知 时 间 ， 通 常 从 50ms 到 几 十 秒 不 等 ， 
也 有 最 快 能 够 做 到 10ms 内 或 者 更 短 时 间 内 检测 到 故障 的 。 在 运营 商 网 络 上 ， 大 部 分 运 
营 商 都 会 部 署 专业 监控 协议 来 检测 网 络 故 障 ， 以 达到 快速 故障 检测 目的 。 

上 面 所 述 的 故障 感知 时 间 就 是 1。 

故障 感知 到 了 之 后 ， 是 否 仅 仅 对 故障 感知 的 节点 进行 处 理 就 够 了 了 呢 ? 比如 一 个 设备 发 
现 自己 的 邻居 出 现 故障 , 把 原本 应 该 转发 给 该 邻居 的 报 文 进行 本 地 重新 选 路 , 选择 另外 一 个 
邻居 转发 是 不 是 就 可 以 了 ? 网 络 的 实际 情况 要 复杂 很 多 , 尽管 该 设备 可 以 根据 自己 掌握 的 拓 
扑 重新 计算 一 个 路 径 ， 可 以 选择 第 二 个 最 短 的 路 径 ， 绕 开 故 障 节点 、 链 路 ， 直 接 把 报 文 发 送 
出 去 ， 但 是 如 果 不 进行 故障 扩散 、 全 网 协同 ， 网 络 很 可 能 形成 环 路 〈 如 图 5-2 所 示 )。 








Cost=400 






Cost=100 


Cost=100 





Cost=100 


图 5-2 ”故障 不 扩散 形成 环 路 示意 


图 中 路 由 器 A 到 C 的 路 径 为 A 一 B 一 C， 因 为 这 条 路 的 总 Cost 为 200， 而 了 D 到 达 C 
的 路 径 为 D 一 A 一 B 一 C， 因 为 总 Cost 为 300， 比 起 直接 从 D 一 C 的 400 要 小 。 如果 A 到 B 
的 链 路 中 断 ，A 自己 重新 计算 选择 A 一 D 一 C， 并 把 报 文 发 送 给 D。 但 是 D 此 时 不 知道 A 
到 B 的 链 路 中 断 ， 不 会 重新 计算 路 由 ， 仍 然 会 认为 走 D 一 A 一 B 一 C 最 近 ， 所 以 当 A 把 报 
文 转发 给 D 时 , D 又 会 把 报 文 发 送 A, 结果 形成 环 路 。 环 路 是 一 种 具有 非常 大 危害 的 故障 。 
业务 流量 丢 包 只 是 影响 部 分 用 户 业 务 , 而 环 路 的 产生 可 能 阻塞 网 络 上 发 生 环 路 的 所 有 相关 
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链 路 ， 影 响 该 链 路 上 所 有 用 户 业 务 流量 。 主 要 原因 是 出 现 环 路 时 ， 业 务 流量 会 在 这 个 环 路 
上 来 回转 发 ， 只 能 靠 TTL (IP 头 里 面 的 一 个 字段 ， 用 于 避免 报 文 在 网 络 中 永远 存活 问题 ， 
默认 设置 为 2355， 每 经 过 一 个 路 由 器 会 减 1， 如 果 路 由 器 发 现 这 个 值 减 1 后 为 0， 就 需要 丢 
弃 ) 超时 才能 丢弃 它们 。 而 报 文 在 TTL 超时 前 ， 可 能 需要 来 回转 发 上 百 次 ， 因 为 TTL 默 
认 设 置 为 255， 也 就 是 可 能 来 回转 发 200 多 次 。 这 样 ， 环 路 上 的 报 文 流 量 激增 200 倍 ， 使 
瞬间 流量 陡 增 ， 造 成 这 个 链 路 无 法 正常 提供 服务 。 解 决 这 个 问题 的 办 法 ， 就 是 感知 故障 的 
节点 不 能 仅仅 自己 进行 故障 处 理 ， 还 要 把 故障 扩散 给 其 他 网 络 设 备 。 各 种 IGP， 包 括 
OSPF/ISIS 协议 ， 都 能 把 故障 扩散 到 整 网 ， 网 络 中 每 个 设备 都 收 到 这 个 故障 后 ， 再 各 自 根 
据 分 布 式 路 由 算法 进行 路 由 计算 。 这 个 故障 扩散 到 全 网 的 时 间 ， 就 是 故障 扩散 时 间 乙 。 

通过 IGP 的 故障 扩散 机 制 ， 当 每 个 设备 收 到 故障 后 进行 新 的 路 由 更 新 时 ， 都 会 进行 
本 地 路 由 计算 ， 进 行 重新 收敛 ， 这 个 过 程 就 是 一 次 正常 的 路 由 计算 过 程 。 每 个 设备 获得 
故障 信息 ， 各 自 进行 路 由 计算 ， 设 备 计 算 路 由 所 需 时 间 称 为 3。 

设备 计算 完成 路 由 后 ， 要 把 这 些 路 由 加 载 到 转发 引擎 ， 这 个 过 程 也 需要 一 定时 间 。 
这 个 时 间 的 长 短 主要 取决 于 需要 加 载 路 由 的 数量 。 通 常 BGP 路 由 数量 较 多 ， 对 于 Internet 
网 络 现在 BGP 路 由 数量 已 经 达到 40 万 以 上 ， 这 个 数目 可 能 还 会 增加 ， 所 以 ， 如 果 全 部 
加 载 这 些 路 由 到 转发 引擎 则 需要 较 长 时 间 , 通常 需要 10 一 40 秒 , 根据 不 同 厂家 的 实现 能 
力 不 同 而 不 同 。 当 然 ， 如 果 BGP 实现 了 下 一 跳 分 离 技 术 ， 是 可 以 大 大 降低 需要 更 新 的 
BGP 路 由 数量 的 ， 从 而 缩短 路 由 加 载 时 间 。 这 个 时 间 就 是 上 面 说 的 14。 


5.1.3 ”SDN 网 络 的 收敛 时 间 分 析 


再 来 看 看 SDN 网 络 情况 下 的 收敛 时 间 情 况 。SDN 网 络 收敛 时 间 分 段 如 图 5-3 所 示 。 





st EL i ei 控制 器 更 新 受 影响 路 由 元， 


图 5-3 SDN 网 络 收敛 时 间 分 析 


SDN 网 络 是 通过 集中 控制 器 进行 路 由 计算 的 ， 下 面 转发 器 并 没有 智能 。 其 路 由 收敛 
过 程 是 ， 当 SDN 控制 器 感知 到 网 络 故障 时 ， 会 重新 为 每 个 受到 影响 的 转发 器 计算 路 由 ， 
并 把 计算 出 的 路 由 下 发 给 转发 器 。 这 个 过 程 和 分 布 式 网 络 对 比如 下 。 

中 首先 ， 故 障 感知 因为 仍然 在 转发 器 完成 ， 感 知 方法 和 协议 也 是 相同 的 ， 所 以 故 
障 感知 时 间 #1' 和 传统 网 络 的 故障 感知 4 是 一 样 ， 基 本 是 不 变 的 。 
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@ 其 次 ， 故 障 扩散 。 传 统 分 布 式 网 络 需要 全 网 扩散 故障 ， 而 SDN 网 络 架构 下 ， 转 
发 器 故障 感知 后 可 以 直接 通知 给 SDN 控制 器 。 显 然 地 ， 故 障 扩散 时 间 2' 比 起 传统 分 布 
式 故 障 扩散 时 间 12 要 短 一 些 。 

@ 再 看 看 路 由 计算 环节 。 传 统 网 络 是 分 布 式 路 由 计算 的 ， 而 SDN 控制 器 是 集中 路 
由 计算 的 。SDN 控制 器 需要 为 每 个 受到 影响 的 转发 器 进行 路 由 计算 ， 那 么 SDN 的 路 由 
算法 就 是 一 个 关键 。 如 何 能 够 在 集中 式 SDN 控制 器 路 由 计算 过 程 中 降低 计算 时 间 是 各 个 
三家 努力 改进 的 一 点 ， 其 关键 的 改进 思路 包括 控制 器 分 布 式 并 行路 由 计算 、 改 进 路 由 计 
算 算法 、 仅 仅 为 那些 受到 故障 影响 的 业务 计算 路 由 等 。 总 之 ，SDN 网 络 架 构 下 的 路 由 计 
算 时 间 2B3' 比 起 分 布 式 路 由 计算 时 间 13 来 ， 是 需要 重点 研究 和 改进 的 。13' 和 13 的 时 间 对 
比 ， 取 决 于 控制 器 实现 路 由 算法 的 优 劣 。 

@ 最 后 看 一 下 路 由 加 载 时 间 。 由 于 传统 分 布 式 计算 路 由 可 以 本 地 直接 加 载 转发 表 ， 
而 控制 器 需要 从 控制 器 下 发 转发 器 加 载 ， 所 以 其 加 载 时 间 不 ' 比 分 布 式 加 载 肯 定 会 慢 一 
些 ， 因 为 毕竟 要 经 过 网 络 才 能 把 转发 表 下 发 到 转发 器 。 当 然 这 个 时 间 的 时 延 相 对 比较 固 
定 ， 是 在 原来 时 间 上 增加 了 一 个 常数 时 间 ， 这 个 常数 时 间 是 网 络 传输 时 延 和 控制 器 下 发 
转发 表 流程 过 程 中 的 时 延 。 这 个 常数 时 间 取 决 于 控制 器 和 转发 器 之 间 采 用 的 协议 : 如果 
采用 类 似 OpenFlow、BGP、PCEP 等 高 速 控制 协议 下 发 ， 这 个 常数 时 间 就 非常 短 ， 比 如 
BGP 每 秒 可 以 传递 数 万 条 路 由 ; 相反， 如 果 采 用 类 似 Netconf、CLI 等 配置 管理 协议 传 
递 路 由 数据 ， 那 么 性 能 会 下 降 1/100 一 LU10 不 等 。 

从 上 面 分 析 可 得 知 ， 故 障 感知 时 间 41' 大 概 等 于 t1; 故障 扩散 时 间 2' 小 于 及; 路 由 计 
算 时 间 13' 和 13 比 ， 需 要 看 算法 实现 ， 但 总 体 上 如 果实 现 得 当 ， 不 会 有 很 大 差距 ，SDN 控 
制 器 集中 路 由 计算 和 传统 分 布 式 网 络 路 由 计算 的 时 间 差 距 , 取决 于 各 个 厂家 路 由 算法 的 研 
发 能 力 , 不 相对 于 分 布 式 计算 4 会 大 一 些 , 并 且 这 项 时 间 很 难 改 进 到 比 传 统 的 本 地 下 发 时 
间 更 短 。 总 之 ，SDN 网 络 架 构 下 ， 如 何 提升 2' 时 间 是 关键 ， 这 也 是 各 个 控制 器 供应 商 未 
来 竞争 的 关键 ; 14' 也 是 需要 重点 分 析 的 ， 毕 况 原 来 是 分 布 式 路 由 加 载 ， 现 在 是 由 集中 的 控 
制 器 向 所 有 转发 器 加 载 路 由 。 本 质 上 ，SDN 网 络 对 架构 重 构 后 ， 收 和 敛 时 间 过 程 与 传统 网 
络 对 比 有 区 别 的 地 方 主要 是 3'、 区 。 下 面 将 分 析 SDN 网 络 该 如 何 提升 这 两 个 时 间 指 标 。 


5.2 提升 SDN 网 络 收敛 时 间 的 技术 


通过 上 述 网 络 收敛 时 间 的 分 析 ， 可 以 得 出 基本 结论 : SDN 网 络 架构 下 的 关键 问题 是 
要 解决 3'〈 集 中 路 由 计算 时 间 〉 和 14' (路 由 下 发 时 间 ) 的 问题 ， 努 力 提升 这 两 个 时 间 指 
标 是 各 控制 器 供应 商家 的 主要 目标 。 这 两 个 时 间 也 是 SDN 控制 器 的 一 个 关键 竞争 指标 。 
这 里 简单 介绍 一 下 控制 器 如 何 提升 这 些 时 间 指 标 。 


5.2.1 仅 计 算 受 影响 的 路 径 


首先 看 看 SDN 网 络 下 各 种 场景 对 路 由 计算 能 力 和 转发 表 下 发 的 需求 ， 分 析 到 底 有 
多 少 计 算 量 和 表 项 需要 下 发 ， 从 而 分 析 降 低 2' 和 在 的 方法 。 前 面 多 次 提 到 SDN 控制 器 
分 为 两 个 部 分 的 路 由 计算 ， 一 部 分 是 网 络 内 部 的 Fabric 交换 路 径 计算 ， 另 一 部 分 是 边缘 
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接 入 业务 的 业务 路 由 计算 ， 如 图 5-4 所 示 。 





图 5-4 网 络 内 部 的 节点 链 路 故障 


而 通常 的 网 络 内 部 出 现 故障 ， 需 要 重新 计算 受到 这 些 故 障 影响 的 那些 交换 路 径 。 比 
如 ， 图 5-4 中 的 PE1 和 P2 之 间 的 链 路 如 果 中 断 ， 需 要 重新 计算 一 条 新 的 交换 路 径 ， 来 
替代 原来 的 Tunnell=PE1 一 P2 一 PE3 之 间 的 那 条 Fabric 交换 路 径 。 计 算 的 结果 是 
Tunnel3=PE1 一 P1 一 PE2 一 P2 一 PE3。 不 需要 对 另外 的 PE1 一 PE2 和 PE2 一 PE3 之 间 的 内 
部 交换 路 径 进行 重新 计算 ， 只 要 计算 那些 受到 影响 的 交换 路 径 ， 就 可 以 节省 很 多 计算 时 
间 ， 使 得 系统 收敛 更 快 。 

边缘 业务 接 入 的 大 量 业 务 路 由 需要 人 迭代 到 内 部 的 交换 路 径 ， 内 部 交换 路 径 通 常 以 隧 
道 形式 实现 。 隧道 通常 实现 简单 的 交换 ， 比 如 使 用 MPLS LSP 来 进行 报 文 交换 。 如 图 5-4 
所 示 ， 当 把 原来 的 内 部 交换 路 径 PE1 一 P2 一 PE3 的 路 径 切 换 为 另外 一 条 路 径 时 ， 如 果 要 
更 新 所 有 的 边缘 接 入 业务 路 由 的 隧道 数据 ， 那 么 性 能 就 很 差 。 

比如 一 个 卫 接 入 业务 的 例子 ， 在 PE1 上面， 学习 了 大 量 IP 路 由 : 

IP Prefix 1.0.9.89/16 ”nexthop = PE3 outInterface tunnell /这 个 转发 表 的 意思 是 前 绥 
最 长 匹配 到 1.0.9.89/16 的 报 文 ， 会 通过 隧道 tunnell， 转 发 给 PE3 。 


IP Prefix 11.8.9.12/16 nexthop= PE3 outInterface tunnell 
IP Prefix 2.8.6.55/16 nexthop = PE3 outInterface tunnell 


内 部 交换 路 径 
Tunnell= PE1-P2-PE3 


而 PE1 上 实际 的 转发 表 可 以 像 下 面 这 样 : 

Tunnell push label 10 outInterface PE1-P2 

这 个 转发 表意 思 是 说 当 有 业务 使 用 Tunnell 传送 数据 时 ， 需 要 在 报 文 头 部 压 入 标签 
10， 并 发 送 给 到 本 地 的 一 个 出 接口 PE1-P2 (PE1-P2 是 PE1 上 的 PE1 连接 P2 的 接口 )。 

这 样 最 终 业 务 路 由 和 内 部 交换 路 径 关 联 在 一 起 形成 PE1 的 完整 转发 表 ，PE1 转发 引 
擎 可 以 利用 这 些 数据 进行 报 文 转发 了 。 

假定 这 个 业务 路 由 数量 有 50 万 条 ， 那 么 我 们 知道 ， 当 上 述 Tunnell 出 现 故 障 ， 我 们 
计算 出 新 的 Tunnel3 来 蔡 换 Tunnel1， 我 们 不 仅 需要 重新 计算 Tunnel3， 还 需要 更 新 这 些 
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业务 路 由 为 : 
IP Prefix 1.0.9.89/16 nexthop = PE3 outInterface tunnel3 
IP Prefix 11.8.9.12/16 nexthop = PE3 outInterface tunnel3 
IP Prefix 2.8.6.55/16 nexthop = PE3 outInterface tunnel3 


重新 计算 的 PE1-PE3 的 内 部 交换 路 径 为 : 
Tunnel3= PE1-P1-PE2-P2-PE3 

而 PE1 上 实际 的 转发 表 可 能 是 : 

Tunnel3 push label 20 outInterface PE1-P1 


上 述 情况 需要 更 新 50 万 条 路 由 。 而 如 果 采 用 另外 一 种 方法 , 能 否 在 业务 路 由 表 中 不 
修改 Tunnell 这 个 数据 ， 而 只 是 把 Tunnell 的 交换 路 径 更 新 为 : PE1 一 P1 一 PE2 一 P2 一 PE3 

这 样 ， 事 实 上 我 们 仅仅 更 新 了 一 条 Tunnel 的 数据 ， 而 不 需要 更 新 50 万 条 业务 路 由 
数据 了 。 

通过 上 面 方法 ， 一 条 链 路 故障 ， 算 法 会 智能 地 仅仅 计算 受到 影响 的 交换 路 径 ， 而 且 
仅仅 更 新 一 条 交换 路 径 数据 给 转发 器 ， 而 边缘 接 入 海量 业务 路 由 则 可 以 不 用 更 新 ， 这 样 
整体 上 就 大 大 降低 了 计算 时 间 和 路 由 刷新 时 间 。 当 然 ， 有 具体 的 实现 也 可 以 采用 在 业务 路 
由 表 和 隧道 表 中 间 插 入 一 个 中 间 表 (IID 表 ， 是 下 一 跳 分 离 技术 的 一 个 表 ， 下 一 跳 分 离 
技术 后 文 有 详细 论述 )。 通过 增加 一 个 中 间 表 分 离 隧 道 和 业务 路 由 表 , 可 以 简单 更 新 隧道 
表 ， 业 务 路 由 表 不 用 更 新 。 上 面 分 析 的 优化 计算 方法 适合 于 域内 的 节点 或 者 链 路 故障 问 
题 ， 因 为 任何 内 部 的 链 路 和 节点 故障 ， 通 过 上 述 设 计 ， 可 以 仅仅 更 新 那些 受到 影响 的 内 
部 Fabric 交换 路 径 的 转发 表 ， 而 不 需 更 新 接 入 业务 路 由 。 这 种 内 部 交换 路 径 的 数量 通常 
不 会 是 海量 ， 相 对 于 大 部 分 简单 场景 情况 ， 一 个 链 路 或 者 节点 故障 影响 几 百 或 者 几 干 条 
路 由 ， 是 正常 的 。 当 然 ， 在 较 大 型 的 网 络 ， 比 如 有 500 个 边缘 接 入 设备 的 网 络 ， 如 果 全 
连接 建立 的 都 是 单 向 隧道 , 考虑 主 备 隧道 情况 , 那么 总 隧道 数量 等 于 2x2x[ (500-1)x 500] 
/2=499 000， 大 概 相 当 于 50 万 条 隧道 ;假设 某 种 极端 场景 ， 一 条 链 路 影响 其 中 的 四 分 之 
一 隧道 ， 这 样 大 概 可 能 达到 12.5 万 条 隧道 计算 ， 按 照 10s 收敛 完成 的 要 求 ， 那 么 大 概要 
求 1.3 万 条 / 秒 的 计算 能 力 。 根 据 这 个 极端 规格 计算 ， 可 以 得 出 一 个 控制 器 的 计算 需求 大 
概 是 1.3 万 条 / 秒 隧道 。 如 果 考 虑 商用 性 ， 控 制 器 需要 能 够 达到 2 万 条 / 秒 的 收敛 能 力 。 当 
然 ， 客 户 可 以 根据 自己 的 网 络 情况 计算 最 大 可 能 的 内 部 交换 路 径 计 算 需 求 ， 因 为 某 些 网 
络 可 能 规格 要 求 更 高 。 关 于 如 何 达 到 这 个 计算 能 力 稍 后 给 出 建议 。 下 面 先 继续 分 析 其 他 
场景 的 计算 需求 。 


5.2.2” 仅 更 新 下 一 跳 表 


上 面 介 绍 了 网 络 内 部 的 节点 链 路 故障 ， 在 极端 情况 下 的 路 径 计算 需求 和 转发 表 项 下 
发 需求 。 下 面 分 析 边 缘 接 入 设备 如 果 出 现 故 障 ， 需 要 处 理 多 少 路 径 计 算 需 求 和 转发 表 项 
下 发 需求 《如 图 5-5 所 示 ) 

在 图 5-5 中 ， 客 户 边 界 设备 CE 通过 双 归 属 接 入 了 PE2 和 PE4， 假定 开始 PE1 选 
用 PE2 到 达 右 边 的 CE， 如 果 PE2 出 现 故 障 ，PE1 需要 更 新 路 由 ， 修 改 为 从 PE4 到 达 
右边 的 CE。 
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图 5-5 边缘 接 入 设备 故障 


下 面 是 PE1 的 路 由 表 (PE2 故障 前 ): 


IP Prefix 1.0.9.89/16 nexthop = PE2 outInterface tunnel2 
IP Prefix 11.8.9.12/16 nexthop= PE2 outInterface tunnel2 
IP Prefix 2.8.6.55/16 nexthop = PE2 outInterface tunnel2 


如 果 PE2 故障 ， 更 新 后 的 PE1 的 路 由 应 该 是 : 


IP Prefix 1.0.9.89/16 nexthop = PE4 outInterface tunnel4 
IP Prefix 11.8.9.12/16 nexthop = PE4 outInterface tunnel4 
IP Prefix 2.8.6.55/16 nexthop = PE4 outInterface tunnel4 


边缘 接 入 业务 路 由 的 数量 非常 大 , 我 们 并 不 希望 因为 PE2 故障 而 重新 计算 和 生成 所 
有 这 些 业 务 路 由 信息 ， 一 个 办 法 是 采用 下 一 跳 分 离 技术 。 下 一 跳 分 离 后 ， 业 务 路 由 不 需 
要 更 新 ， 而 是 仅仅 更 新 下 一 跳 表 。 比 如 采用 下 一 跳 分 离 技术 后 ，PE1 的 路 由 修改 为 : 


IP Prefix 1.0.9.89/16 ”nexthop = IID2 /WIID2 是 一 个 关联 两 个 表 的 一 个 关键 字 ， 是 一 个 KEY 值 ， 系 统 内 部 分 配 : 
IP Prefix 11.8.9.12/16 nexthop = IID2 
IP Prefix 2.8.6.55/16 nexthop = IID2 


ID2=PE2 outInterface tunnel2 

通过 下 一 跳 分 离 技 术 ， 如 果 PE2 故障 ， 只 需要 更 新 下 一 跳 表 为 : 

ID2= 了 PE4 outInterface tunnel4 

这 样 就 不 用 更 新 数 以 万 计 的 边缘 接 入 业务 路 由 表 了 ， 而 是 只 需要 仅仅 更 新 下 一 跳 
表 。 通 过 仅仅 更 新 一 条 下 一 跳 表 的 转发 表 项 就 完成 路 由 更 新 ， 性 能 会 大 幅度 提升 ， 无 论 
是 计算 的 时 间 2B3' 还 是 下 发 转发 表 的 时 间 区 4' 都 得 到 改进 。 当 然 考虑 实际 情况 ， 当 PE2 故 
障 时 ， 原 来 网 络 所 有 通过 这 个 PE2 出 口 的 业务 流量 都 必须 进行 下 一 跳 表 更 新 。 比 如 还 是 
500 个 边缘 业务 节点 ， 比 如 它们 都 以 PE2 为 出 接口 ， 现 在 PE2 故障 了 ， 都 需要 更 新 ， 那 
么 大 概 需要 更 新 500 个 类 似 的 下 一 跳 表 。 按照 极限 考虑 ,如 果 5000 个 下 一 跳 表 更 新 要 求 
ls 内 更 新 完成 ， 那 么 大 概 需要 控制 器 每 秒 更 新 5000 个 下 一 跳 表 ， 这 个 量 级 的 计算 对 于 
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控制 器 来 说 是 相当 容易 做 到 的 。 当 然 PE2 故障 带 来 的 内 部 通过 PE2 做 Fabric 的 交换 路 径 
的 计算 在 前 一 部 分 已 经 分 析 了 ， 不 用 再 考虑 。 上 述 只 是 给 出 一 个 分 析 方 法 ， 实 际 的 数据 
需要 根据 网 络 具 体 场景 来 分 析 性 能 需求 。 


5.2.3 分布 式 并 行 计算 


1. 控制 器 进行 分 布 式 并 行 计算 

在 图 5-4 中 ， 即 使 网 络 内 部 的 交换 设备 和 边缘 接 入 设备 都 没有 故障 ， 由 于 边缘 接 入 
设备 会 接 入 大 量 外 部 业务 路 由 , 比如 外 部 邻居 通过 BGP 等 形式 把 外 部 业务 路 由 发 送 到 控 
制 器 ,这 个 路 由 数量 可 能 非常 庞大 。 比 如 ,假设 有 500 个 边缘 业务 节点 , 通过 BGP 形式 
接 入 IP 业务 路 由 , 每 个 边缘 业务 节点 假设 接 入 5 个 BGP 邻居 , 每 个 邻居 接 入 假设 20000 
条 路 由 ， 那 么 控制 器 学 习 的 BGP 总 路 由 数量 就 是 5000 万 。 这 些 路 由 的 更 新 会 给 控制 器 
带 来 很 大 压力 。 如 果 每 个 邻居 每 秒 钟 平均 有 100 条 路 由 振荡 ， 那 么 就 可 能 产生 25 万 条 / 
秒 的 业务 路 由 刷新 ， 所 以 控制 器 必须 想 办 法 解决 这 样 的 路 由 计算 和 刷新 。 这 个 路 由 计算 
过 程 没 有 什么 好 办 法 ， 必 须 通 过 提高 计算 能 力 和 分 布 式 并 行 计算 方式 进行 ， 这 也 是 为 什 
么 控制 器 通常 需要 分 布 式 集群 的 一 个 重要 原因 。 

根据 上 面 分 析 , 得 出 这 样 几 条 路 由 计算 和 路 由 下 发 需求 , 都 以 比较 高 要 求 来 分 析 (这 
些 数据 只 针对 前 面 介绍 的 组 网 场景 。 特 定 场 景 需要 特定 分 析 ): 

Q@ 内 部 节点 和 链 路 故障 ， 需 要 每 秒 计算 2 万 条 隧道 和 转发 表 下 发 能 力 。 

@ PE 节点 故障 ， 需 要 每 秒 计算 5000 条 下 一 跳 表 的 计算 和 更 新 能 力 。 

@ 平时 的 边缘 接 入 业务 路 由 振荡 ， 需 要 支持 大 概 25 万 条 / 秒 的 路 由 刷新 能 力 。 

按照 这 种 极端 场景 情况 ， 控 制 器 如 何 能 够 有 效 地 缩短 路 由 计算 时 间 和 转发 表 下 发 时 
间 呢 ? 如 果 有 一 个 超 强大 的 服务 器 ， 应 该 可 以 满足 这 种 需求 ， 这 种 方法 叫 作 SCALE-UP 
方法 ， 比 如 使 用 更 加 强大 的 CPU。 但 是 可 惜 的 是 ， 这 种 方法 总 是 有 限制 ， 单 台 计 算 机 计 
算 能 力 的 提升 不 是 无 止境 的 ， 业 务 计算 能 力 的 需求 已 经 远 远 超过 了 单 台 计算 机 的 计算 能 
力 的 提升 速度 , 而 且 目前 为 止 这 个 超 强 的 计算 机 成 本 也 太 高 了 , 不 适合 作为 控制 器 使 用 。 
另外 的 一 个 办 法 是 SCALE-OUT 方法 ， 这 种 水 平 扩展 方式 通过 更 多 的 服务 器 形成 一 个 集 
群 系统 ， 通 过 集群 系统 来 进行 并 行 计算 ， 从 而 解决 路 由 计算 和 转发 表 下 发 的 性 能 问题 。 
比如 通过 10 台 服 务 器 并 行 计 算 ， 那 每 台 计 算 机 分 配 的 计算 规格 要 求 是 : 

Q@ 内 部 节点 和 链 路 故障 ， 需 要 每 秒 计算 2 万 /10=2000 条 隧道 和 转发 表 下 发 能 

@ PE 节点 故障 ， 需 要 计算 5000/10=500 条 下 一 跳 表 的 计算 和 更 新 能 力 。 

@ 平时 的 边缘 接 入 业务 路 由 振荡 ， 需 要 支持 大 概 25 万 /10=2.5 万 条 / 秒 的 路 由 刷新 
能 力 。 

对 于 这 个 要 求 ， 通 常 的 服务 器 就 可 以 完成 ， 所 以 通过 集群 系统 水 平 扩展 的 SCALE- 
OUT 方法 是 有 效 解决 问题 的 关键 方法 。 也 就 是 说 可 以 简单 地 通过 增加 服务 器 到 这 个 SDN 
控制 器 集群 系统 来 提高 计算 性 能 ， 从 而 提升 收敛 时 间 以 达到 可 以 商用 的 要 求 。 这 里 简单 
地 做 一 个 说 明 : 比如 把 2 万 条 隧道 计算 任务 分 发 给 10 个 服务 器 的 计算 程序 进行 并 行 计算 ， 
相当 于 速度 提升 了 10 倍 。 当 然 这 是 理想 情况 ， 由 于 资源 冲突 问题 ,实际 的 计算 效率 也 许 
提升 5 倍 ， 但 是 这 也 是 以 大 大 改进 了 系统 的 收敛 性 能 。 还 可 以 把 一 定数 量 的 边缘 业务 接 
入 设备 的 路 由 处 理 放 在 一 台 服 务 器 上 ， 比 如 每 台 服 务 器 处 理 50 台 边 缘 接 入 设备 的 路 由 
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处 理 , 通过 这 种 方法 , 就 可 以 有 效 地 降低 每 台 服 务 器 的 计算 压力 , 提升 了 路 由 计算 能 

另外 ， 关 于 转发 数据 下 发 过 程 ， 需 要 降低 转发 表 下 发 时 间 。 首 先 需要 考虑 的 是 转发 
表 下 发 不 是 每 个 表 项 下 发 一 个 报 文 ， 而 是 把 一 组 表 项 打包 为 一 个 大 的 报 文 下 发 ， 比 如 每 
个 报 文 1500 字 节 可 以 打包 nn 个 表 项 , 根据 具体 的 表 项 大 小 不 同 ,n 可 能 是 几 十 个 表 项 的 
量 级 ， 通 过 打包 技术 ， 会 有 效 地 提升 转发 表 下 发 效率 ， 同 时 也 采用 多 台 服 务 器 并 行 主机 
收发 能 力 , 大 大 加 速 SDN 控制 器 和 转发 器 之 间 整 体 的 传送 吞吐 能 力 ， 从 而 有 效 地 压缩 了 
转发 表 下 发 时 间 。 

总 之 ， 分 布 式 并 行 计算 是 有 效 解 决 计算 能 力 的 关键 。 分 布 式 并 行 计算 需要 控制 器 有 
成 熟 的 分 布 式 系统 中 间 件 支持 ， 同 时 也 需要 对 特定 的 业务 进行 特定 的 并 行 计算 分 析 和 处 
理 ， 只 有 两 个 方面 结合 起 来 才能 很 好 地 解决 收敛 时 间 问 题 。 

2. 利用 传统 分 布 式 控制 面 纯 载 控制 器 的 计算 压力 

在 上 面 的 各 项 指标 中 ， 边 缘 接 入 业务 路 由 的 处 理 需 要 消耗 巨大 的 计算 资源 和 传输 学 
源 。 这 里 还 有 一 个 可 行 的 方法 , 就 是 利用 转发 设备 上 的 CPU 完成 这 些 边缘 接 入 业务 路 由 
的 并 行 计算 和 处 理 ， 也 就 是 采用 边缘 业务 处 理 可 上 可 下 技术 。 边 缘 业 务 可 上 可 下 技术 的 
基本 原理 如 图 5-6 所 示 。 





图 5-6 边缘 业务 可 上 可 下 技术 原理 


这 种 技术 的 含义 是 ， 边 缘 接 入 业务 路 由 的 处 理 可 以 部 署 在 控制 器 上 进行 计算 (可 上 
方案 )， 也 可 以 分 布 在 转发 器 上 进行 计算 〈 可 下 方案 )。 分 布 在 转发 器 上 计算 是 直接 利用 
传统 转发 器 的 分 布 式 控制 面 的 能 力 〈 可 下 方案 )， 比 如 图 5-6 中 的 BGP 的 处 理 ， 没 有 集 
中 到 控制 器 进行 计算 和 处 理 , 而 是 直接 在 下 面 的 转发 器 的 路 由 器 B 和 路 由 器 C 上 进行 计 
算 和 处 理 。 可 下 方案 中 在 控制 器 上 主要 完成 网 络 内 部 交换 路 径 的 计算 和 收敛 ， 控 制 器 本 
身 并 不 会 对 BGP 进行 任何 计算 。 这 种 处 理 方 法 可 以 有 效 地 解决 边缘 接 入 业务 路 由 大 规模 
振荡 带 来 的 计算 压力 问题 。 当 然 这 种 做 法 也 有 一 些 局 限 ， 因 为 边缘 接 入 业务 路 由 处 理 没 
有 集中 控制 , 所 以 就 不 方便 对 这 些 边缘 业务 路 由 增加 各 种 灵活 的 策略 控制 能 力 了 。 比 如 ， 
如 果 希 望 增加 针对 边缘 接 入 业务 路 由 实施 新 的 策略 控制 方法 ， 就 需要 升级 转发 器 软件 ， 
而 如 果 集 中 控制 ， 可 以 仅仅 通过 更 新 控制 器 软件 就 支持 这 些 新 的 边缘 业务 路 由 的 策略 控 
制 ， 但 是 在 网 络 迁移 演进 方案 中 ， 这 种 方案 可 能 是 一 个 不 错 的 演进 方法 。 
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5.2.4 ”利用 传统 的 快速 收敛 技术 


上 面 讨论 的 网 络 收敛 时 间 ， 实 际 上 是 我 们 所 说 的 硬 收敛 时 间 ， 也 就 是 完全 通过 控制 
面 进行 计算 收敛 的 时 间 。 幸运 的 是 , 传统 网 络 已 经 使 用 的 一 些 快 速 收敛 技术 在 SDN 网 络 
架构 下 仍然 是 适用 的 ， 而 且 这 些 技术 可 以 降低 我 们 对 硬 收敛 时 间 的 要 求 。 其 中 最 重要 的 
收敛 技术 是 FRR (Fast ReRoute) 技术 ，FRR 可 以 提前 把 可 能 的 备 选 转发 路 径 计算 出 来 ， 
并 加 载 到 转发 引擎 中 , 使 得 当 网 络 出 现 对 应 的 故障 时 , 可 以 在 转发 面 立即 完成 路 径 切 换 ， 
通过 FRR 路 径 转 发 流量 , 避免 用 户 流量 丢失 , 该 技术 对 于 某 些 故障 可 以 做 到 流量 路 径 切 
换 不 丢 包 。 在 SDN 网 络 架 构 下 ， 我 们 仍然 可 以 利用 这 个 技术 ， 提 前 计算 好 FRR 路 径 并 
加 载 到 转发 引擎 。 一 旦 网 络 故障 发 生 ， 如 同 传统 网 络 一 样 ， 可 以 在 转发 面 先 进行 路 径 切 
换 ， 然 后 控制 器 再 计算 新 的 路 径 和 FRR 路径， 这 样 实际 上 降低 了 对 硬 收敛 的 要 求 。 用户 
其 实 最 关心 的 是 故障 发 生 造 成 用 户 流量 丢失 或 者 受到 影响 的 时 间 ， 并 不 是 很 关心 到 底 采 
用 了 什么 技术 。 


【本 章 小 结 】 


总 体 上 ，SDN 网 络 架构 下 的 网 络 收敛 时 间 仍 然 是 客户 关注 的 问题 ，SDN 网 络 架 构 
下 的 收敛 时 间 不 能 比 传统 分 布 式 网 络 的 收敛 时 间 有 量 级 影响 。 收 敛 时 间 包 括 如 、 刀 、 妃 
和 44 四 个 部 分 。 其 中 ，11 是 故障 感知 时 间 ， 妇 是 故障 扩散 时 间 ，3 是 路 由 计算 时 间 ， 区 4 
是 路 由 表 加 载 时 间 。 传 统 网 络 和 SDN 网 络 的 #1 时 间 应 该 相当 ; SDN 网 络 架构 下 12 比 传 
统 网 络 应 该 会 短 一 些 ; 13 和 44 是 控制 器 要 努力 缩短 的 ， 它 们 会 影响 最 终 的 网 络 业务 收敛 
时 间 , 所 以 也 是 各 个 厂家 竞争 的 关键 指标 。 我 们 必须 努力 缩短 SDN 网 络 架构 下 的 网 络 收 
敛 时 间 ， 也 就 是 努力 缩短 3 和 好 。 一 方面 要 积极 提升 集中 路 由 计算 的 性 能 ， 包 括 提升 
SDN 控制 器 的 边界 接 入 业务 路 由 和 内 部 交换 路 径 的 计算 能 力 ,， 这 需要 靠 控制 器 的 分 布 式 
集群 架构 来 解决 。 通 过 分 布 式 系统 中 间 件 和 特定 业务 的 并 行 计算 分 析 和 设计 ， 可 以 有 效 
地 缩短 路 由 计算 和 转发 表 下 发 时 间 ， 使 得 SDN 网 络 的 收敛 性 能 能 够 达到 商用 规格 要 求 。 
另 一 方面 , 需要 同时 部 署 一 些 边缘 业务 接 入 节点 可 上 可 下 技术 和 FRR 技术 来 降低 故障 对 
用 户 流 量 的 影响 。 
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6.1 开放 可 编程 的 接口 层次 


SDN 网 络 要 想 支 持 业 务 快速 创新 ， 一 个 核心 的 需求 就 是 开放 可 编程 。 如 果 不 是 开放 
的 系统 ， 如 何 进行 快速 业务 创新 ? 

在 SDN 网 络 架构 下 ， 客 户 最 为 担心 的 问题 是 被 控制 器 厂家 锁定 ， 不 能 把 第 三 方 的 
设备 接 入 到 SDN 网 络 , 使 得 现 网 厂家 形成 封闭 系统 ,客户 也 担心 封闭 的 控制 器 导致 第 三 
方 的 控制 应 用 程序 无 法 部 署 在 SDN 网 络 的 控制 器 上 。 本 章 正 是 要 解释 开放 可 编程 是 如 何 
满足 这 些 需 求 的 。 

首先 看 一 下 如 图 6-1 所 示 的 SDN 网 络 架构 。 在 整个 SDN 网 络 架构 下 ， 网 络 分 为 转 
发 器 、 控 制 器 和 上 面 的 协同 应 用 层 。 


协同 应 用 层 OpenStack/ 第 三 方 应 用 


控制 器 
NBI(REST API) 


3 网 络 
We 第 3 方 控制 | 业务 
网 取 本 生计 算 ma 


NetOS API(APD 


网 络 资源 管理 


网 元 资源 层 网 元 抽象 模型 


|  — SBI( 网 70 扩 加 司 API) 
厂家 1 驱动 程 厂家 2 驱动 程序 





图 6-1 SDN 网 络 的 层次 结构 





此 架构 定义 了 几 层 之 间 的 接口 ， 包 括 整个 控制 器 北向 接口 NBI (North Bound Interface， 北 
向 接口 )、NetOS API (网 络 操作 系统 API)、SBI 〈South Bound Interface， 网 元 资源 抽象 接口 )。 


6.1.1 NBI 


NBI 通常 表示 开放 的 是 控制 器 网 络 服务 接口 ， 通 过 这 些 开放 接口 提供 各 种 网 络 服务 ， 
比如 L2VPN 服务 、L3VPN 服务 等 。 此 类 接口 是 面向 网 络 业 务 的 ， 提 供 的 是 网 络 业务 模型 
的 接口 ， 供 上 面 的 应 用 程序 (如 OSS) 直接 调用 一 个 网 络 服务 来 提供 网 络 功能 。 北 向 接口 
通常 使 用 的 接口 协议 可 以 是 REST 或 者 Netconf、CLI 等 。OSS 可 以 发 起 这 样 一 个 调用 : 


Create L2VPN( VPN name, interface 1, interface 2, BW=10M); 
Interface 1, Interface 2 是 网 络 中 的 外 连 业 务 接 入 接口 ; 
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控制 器 就 会 根据 这 个 调用 完成 从 interfacel 到 interface2 的 一 个 PW (psudo-wire， 伪 
线 ，L2VPN 的 一 种 ) 的 创建 。 因 为 控制 器 本 身 提供 了 这 样 的 L2VPN 的 服务 接口 ， 上 层 
调用 者 不 需要 关心 具体 的 这 个 PW 业务 是 如 何 创 建 的 , 也 不 需要 关心 其 中 VPN 标签 、 隧 
道 标 签 。 在 SDN 网 络 架构 下 ， 网 络 中 不 再 需要 各 种 MPLS 协议 和 VPN 信 令 。 事 实 上 ， 
在 SDN 网 络 架 构 下 ， 这 种 L2PVN 业务 提供 的 网 络 内 部 技术 ， 比 如 到 底 是 采用 了 MPLS 
作为 隧道 还 是 采用 了 GRE 作为 隧道 , 客户 可 以 不 用 关心 , 这 些 实现 技术 细节 被 控制 器 封 
装 了 ， 这 样 也 就 降低 了 对 网 络 管理 人 员 的 技能 要 求 。 以 往 的 情况 是 ， 网 络 管理 员 必 须 清 
楚 这 个 L2VPN 业务 提供 的 具体 的 协议 和 技术 实现 细节 。 这 种 网 络 服 务 接口 本 身 通常 不 
会 操作 网 络 中 具体 的 一 个 转发 器 ， 而 是 发 送 服 务 请 求 给 控制 器 ， 控 制 器 通过 内 部 计算 生 
成 转发 表 ， 下 发 给 对 应 转发 器 ， 提 供 网 络 服务 。 这 种 网 络 业务 服务 是 以 网 络 为 单位 提供 
的 网 络 功能 服务 。 

在 数据 中 心里 面 ， 比 如 Openstack〔 是 一 个 开源 的 数据 中 心 协 同 层 软件 ) 希望 在 数 
据 中 心 创建 一 个 三 层 虚 拟 网 络 ， 并 把 特定 的 主机 加 入 这 个 虚拟 网 络 ， 会 调用 这 样 的 服 
务 接口 : 

CreateVN (VNID,VM]1 MAC,VM2 MAC...) ; 

通过 类 似 的 调用 ， 控 制 器 会 获得 这 些 信息 : VM1 和 VM2 等 虚拟 机 是 属于 同一 个 子 
网 的 。 当 VM1 和 VM2 上 线 后 ， 控 制 器 会 通过 类 似 ARP 协议 或 者 DHCP 等 协议 感知 到 
这 个 VM1 和 VM2 上 线 ， 并 把 这 两 个 VM 加 入 对 应 的 虚拟 网 络 ， 使 得 在 同一 个 虚拟 网 络 
内 的 VM 可 以 进行 互相 通信 。Openstack 不 需要 关心 下 面 SDN 网 络 到 底 是 如 何 把 这 些 
VM 连接 为 一 个 二 层 虚拟 网 络 的 。Openstack 不 了 解 也 不 需要 了 解 控制 器 如 何 实现 这 个 
VN 虚拟 网 络 的 技术 细节 ， 比 如 控制 器 到 底 采 用 了 VXLAN 技术 提供 的 虚拟 网 络 还 是 采 
用 了 传统 的 VLAN 抑或 是 采用 NVGRE 技术 ， 这 些 协同 层 应 用 程序 都 不 需要 关心 。 

正如 上 面 说 的 ， 控 制 器 开放 了 网 络 业 务 服务 接口 供 上 层 应 用 调用 ， 这 种 应 用 可 以 根 
据 自 己 的 策略 决定 何 时 调用 控制 器 提供 的 网 络 服务 功能 ， 控 制 器 开放 的 这 种 接口 是 业务 
北向 接口 。 


6.1.2 NetOS API 


再 看 看 图 6-1 中 的 第 二 层 接口 , 叫 作 NetOS API， 即 网 络 操作 系统 API。 这 个 接口 其 
实 是 控制 器 平台 开放 的 接口 ， 主 要 包括 控制 器 内 部 的 网 络 资源 和 网 元 资源 访问 接口 ， 包 
括 读 取 拓 扑 接口 、 读 取 网 络 状态 接口 、 获 取 特 定 转发 器 的 特定 的 报 文 接口 、 分 配 标签 和 
VLAN ID 等 资源 分 配 接口 、 流 表 下 发 接口 、 事 件 通知 接口 等 。 此 类 接口 基本 上 都 是 资源 
操作 接口 ， 是 网 络 控制 的 具体 技术 所 需 的 各 种 数据 ， 是 网 络 资源 模型 接口 ， 而 不 是 网 络 
业务 接口 。 其 接口 的 操作 形式 基本 上 是 对 网 络 内 部 资源 的 增 、 删 、 改 、 查 、 通 知 操作 。 
这 些 接口 的 使 用 者 正如 图 6-1 中 显示 的 ， 是 控制 类 APP“〔〈 网 络 业务 应 用 程序 )， 控 制 类 
APP 调用 这 些 接口 提供 网 络 服务 。 控 制 类 APP 或 者 网 络 业务 应 用 是 什么 ? 比如 说 SDN 
网 络 控制 器 提供 的 数据 中 心 内 的 二 层 虚拟 网 络 业 务 、L2VPN 业务 、L3VPN 业务 ， 这 些 
都 是 控制 类 应 用 程序 实现 的 。 虚 拟 网 络 程 序 、L2VPN 程序 、L3VPN 程序 ， 这 些 应 用 程 
序 通过 一 定 的 算法 和 逻辑 实现 了 网 络 服务 。 这 些 应 用 程序 了 解 网 络 内 部 的 详细 技术 细节 ， 
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并 直接 读 取 和 操控 网 络 中 各 个 转发 器 的 转发 资源 ， 以 实现 对 应 的 业务 功能 。 这 些 控制 应 
用 程序 提供 的 网 络 业 务 服务 功能 可 以 供 外 部 的 协同 层 应 用 程序 (如 OSS、Openstack) 调 
用 。 假 如 SDN 控制 的 这 个 网 络 原 本 不 支持 L2VPN 业务 ， 现 在 希望 在 网 络 中 能 够 提供 这 
个 服务 ， 就 需要 在 SDN 控制 器 上 安装 一 个 L2VPN 的 控制 类 APP 来 实现 这 个 网 络 业务 。 
而 这 个 控制 类 L2VPN APP 正 是 调用 那些 NetOS API 来 完成 这 个 业务 的 。 

NetOS API 和 NBI 的 区 别 在 于 以 下 方面 。 

@ 控制 器 的 NBI 是 面向 网 络 业务 的 ，NetOS API 是 面向 网 络 本 身 的 。 

@ 操作 对 象 不 同 。NBI 提供 的 是 网 络 服务 黑 盒 接口 ， 是 控制 器 已 经 支持 的 网 络 服 
务 ，NetOS API 操控 的 是 网 元 资源 接口 和 网 络 资源 接口 ， 是 操控 网 络 内 部 各 个 网 元 的 。 
一 个 简单 例子 ， 网 络 中 如 果 有 一 个 P 设备， 就 是 内 部 交换 节点 ， 不 对 外 提供 接 入 业务 ， 
那么 控制 器 的 NBI 接口 永远 也 不 会 操控 这 个 设备 , 而 NetOS API 通常 需要 控制 这 些 P 设 
备 ， 并 给 它们 下 发 流 表 ， 形 成 内 部 的 按 需 交换 路 径 。 

@) 调用 者 不 同 。NBI 是 供用 户 调用 网 络 服务 的 ，NetOS API 是 为 网 络 业务 应 用 程序 
提供 网 络 和 网 元 资源 操作 接口 以 便 提供 更 多 的 网 络 服务 。 也 就 是 网 络 业务 应 用 程序 开放 
的 接口 是 控制 器 NBI 网 络 服务 接口 ，NetOS API (控制 器 平台 ) 开放 的 网 络 资源 接口 是 
供 网 络 业务 应 用 程序 来 调用 实现 网 络 业 务 的 。 

@ 用 户 不 同 。 通常 地 ， 网 络 管理 员 很 容易 使 用 控制 器 的 北向 NBI， 对 外 提供 网 络 服 
务 和 销售 网 络 服务 , 但 是 网 络 管理 员 几 乎 没有 办 法 使 用 这 些 NetOS API。 这 些 NetOS API 
是 给 程序 员 使 用 的 ， 程 序 员 在 编写 新 的 控制 类 应 用 程序 时 会 调用 这 些 NetOS API。 控 制 
器 北向 NBI 是 网 络 提供 的 业务 ， 容 易 理 解 ， 而 NetOS API 是 内 部 技术 细节 ， 只 有 专业 程 
序 员 才能 理解 和 使 用 ， 网 络 管理 员 和 用 户 对 这 些 NetOS API 很 难 理解 。 

正 是 通过 这 一 层 抽象 的 NetOS API， 使 得 上 层 所 有 控制 类 APP 或 者 说 网 络 业 务 应 用 
程序 不 需要 关心 具体 的 转发 设备 细节 , 也 不 需要 关心 是 哪个 厂家 的 设备 , 这些 控制 类 APP 
只 需要 调用 这 些 抽象 的 API 来 实现 网 络 业务 就 可 以 。 


6.1.3 SBI 


再 往 下 看 第 三 个 开放 接口 层次 ， 就 是 SBI〈 网 元 资源 抽象 服务 接口 )， 它 定义 了 
网 元 的 抽象 模型 接口 。 在 网 络 操作 系统 内 部 定义 了 资源 管理 ， 包 括 网 络 资源 管理 和 
网 元 资源 管理 ， 也 定义 了 这 些 资源 的 逻辑 抽象 模型 ， 并 且 提 供 了 这 些 资源 操作 的 接 
口 ， 用 来 从 转发 器 收集 资源 信息 ， 并 把 控制 器 生成 的 流 表 下 发 给 转发 器 《网 元 )。 
控制 器 会 定义 统一 的 资源 收集 接口 和 流 表 下 发 接口 ， 这 些 接口 就 是 SBI。 这 个 SBI 
开放 的 目的 是 为 了 让 各 个 转发 器 厂家 可 以 通过 编写 自己 的 驱动 程序 对 接 这 些 SBI。 
这 些 驱动 程序 把 抽象 网 元 资源 模型 转换 为 它们 自己 设备 的 转发 模型 ， 或 者 将 设备 上 
的 资源 上 报 模 型 转化 为 控制 器 要 求 的 资源 模型 ， 这 些 转化 程序 就 是 广 家 驱动 程序 。 
这 些 驱 动 程序 可 以 自己 用 定制 的 协议 和 自己 设备 交互 ， 也 可 以 通过 一 些 系 统 提 供 的 
标准 协议 接口 进行 交互 。 正 是 我 们 定义 了 标准 的 SBI 接 口 ， 使 得 在 这 一 层 可 以 屏蔽 
掉 底 层 不 同 三 家 设备 的 差异 ， 实 现 网 络 操作 系统 的 屏蔽 底层 转发 器 的 具体 物理 实现 
细节 的 基本 功能 。 
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6.2 多 层次 接口 开放 的 几 个 问题 探讨 


6.2.1 ”SDN 需要 多 层次 接口 开放 


那 现 在 讨论 到 的 开放 可 编程 到 底 指 的 是 哪个 层次 的 开放 可 编程 呢 ? 首先 ， 开 放 SBI 
让 多 厂家 设备 可 以 编写 自己 的 驱动 程序 , 将 自己 的 转发 器 接 入 到 SDN 控制 器 。 为 了 解决 
多 厂家 转发 设备 接 入 问题 ， 这 个 SBI 接口 是 需要 开放 的 。 而 NetOS API 开放 的 网 络 资源 
操作 接口 ， 是 网 络 操作 系统 开放 的 编程 接口 ， 一 般 是 控制 类 网 络 业 务 应 用 开发 商 使 用 它 
们 来 开发 控制 类 网 络 业务 应 用 程序 ， 这 个 接口 通常 也 是 要 开放 的 。 控 制 器 北向 操作 接口 
NBI， 本 来 就 是 要 开放 的 ， 不 开放 别人 就 不 能 配置 和 操作 控制 器 ， 也 就 是 不 能 使 用 这 个 
控制 器 了 。 理 论 上 这 三 层 接口 都 是 需要 开放 的 ， 而 且 在 实践 过 程 中 ， 很 多 三 家 控制 器 也 
都 说 自己 是 多 层次 开放 的 体系 架构 ， 包 括 华为 控制 器 、 开 源 的 ONOS 控制 器 、 开 源 的 
ODL 控制 器 都 算是 多 层次 开放 体系 。 


6.2.2 ”不 同 的 业务 需求 需要 不 同 层次 的 接口 


现在 很 多 人 搞 不 清楚 什么 是 网 络 业务 应 用 程序 ， 什 么 是 上 面 的 协同 层 应 用 程序 ， 有 
时 也 搞 不 清楚 开放 控制 器 要 开放 什么 。 反 正大 家 都 说 要 开放 控制 器 ， 就 是 要 开放 ， 但 是 
到 底 开 放 是 指 什么 ,自己 到 底 要 什么 也 不 是 很 清楚 。 如 果 说 SDN 网 络 架 构 是 希望 加 速 网 
络 业务 创 新 ， 那 么 到 底 这 个 网 络 业务 创新 是 指 哪些 业务 创新 呢 ? 如 果 认 为 加 速 网 络 业务 
创新 是 指 ，SDN 网 络 不 支持 L3VPN， 需 要 快速 开发 交付 一 个 L3VPN 业务 ; SDN 网 络 系 
统 不 支持 组 播 ， 需 要 快速 开发 交付 来 使 网 络 支持 组 播 业 务 ; SDN 网 络 系统 不 支持 IPv6， 
需要 快速 开发 交付 支持 ， 那 么 这 里 需要 开放 的 接口 更 多 地 应 该 是 指 开 放 控 制 器 平台 的 
API， 也 就 是 网 络 操作 系统 的 NetOS API 的 资源 操作 接口 了 。 因 为 只 有 开放 这 些 接口 才 
能 实现 这 种 需求 。 当 然 ， 有 一 些 客户 说 业务 快速 创新 是 指 当 客户 需要 提供 一 个 L2VPN 
服务 时 ， 能 快速 开发 程序 调用 一 个 L2VPN 服务 接口 满足 客户 的 这 个 需求 ， 如 果 客 户 发 
现 网 络 经 常 发 生 攻击 ， 于 是 希望 使 用 攻击 识别 软件 调用 网 络 提供 的 阻塞 流量 服务 直接 阻 
塞 某 些 特定 流量 功能 。 如 果 这 些 是 客户 希望 的 快速 业务 创新 ， 那 么 可 能 只 要 调用 控制 器 
提供 的 北向 NBI 网 络 业务 服务 接口 就 可 以 了 。 


6.2.3 ”难以 在 业界 统一 SDN 控制 器 的 北向 接口 


更 进一步 地 ， 如 果 多 个 厂家 的 控制 器 的 NBI 不 一 样 , 那么 基于 控制 器 的 NBI 开发 的 
协同 层 业务 APP 当然 就 必须 要 适 配 这 些 多 厂家 的 控制 器 的 不 同 NBI 了 。 于 是 增加 了 开 
发 工作 量 ， 阻 碍 了 此 类 协同 层 APP 的 上 市 周期 ， 因 此 希望 所 有 厂家 的 NBI 也 是 统一 的 
接口 ， 但 是 似乎 这 并 不 容易 。 因 为 运营 商 可 能 有 些 特殊 的 业务 需求 ， 希 望 供应 商 必须 尽 
快 实现 这 些 业 务 需 求 ， 各 个 控制 器 供应 商 就 像 传统 设备 供应 商 一 样 会 立刻 满足 这 些 业务 
需求 。 要 实现 这 些 业 务 需 求 ， 就 必须 定义 一 个 北向 NBI 操作 接口 以 便 操作 这 些 业 务 。 然 
而 ， 各 个 厂家 为 了 快速 交付 ， 不 可 能 互相 商量 采用 一 样 的 北向 NBI， 也 不 可 能 等 待 标准 
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组 织 定义 一 个 标准 的 北向 接口 再 去 交付 ， 最 终 导致 各 自 开 发 的 相同 网 络 业务 需求 的 北向 
接口 会 逐渐 走向 不 同 。 尽 管 IETF 的 MIB 工作 组 定义 了 很 多 类 似 的 北向 接口 ， 但 最 终 各 
个 厂家 的 MIB 仍然 有 大 量 私 有 实现 , 很 难 统一 。 这 也 就 是 为 什么 北向 业务 接口 很 难 实现 
标准 化 的 原因 。 另 外 ， 如 果 一 个 厂家 实现 了 北向 业务 接口 NBI, 但 不 是 一 个 标准 定义 的 ， 
另外 一 个 厂家 如 果 也 按照 那个 厂家 的 接口 定义 实现 ， 在 法 律 上 可 能 还 有 版 权 问题 。 这 就 
是 业务 快速 上 市 和 定义 标准 之 间 的 冲突 。 对 于 一 些 成 熟 很 多 年 的 业务 ， 统 一 各 个 控制 
器 厂家 的 此 类 NBI 接口 当然 是 好 事 ， 会 利好 传统 的 OSS 厂商 ， 因 为 以 后 类 似 OSS 的 
应 用 只 要 对 接 统一 的 NBI 就 可 以 ， 而 不 需要 像 以 前 一 样 适 配 很 多 厂家 设备 。 其 实 OSS 
的 变革 也 正在 进行 ， 很 多 开源 软件 正在 分 解 OSS 的 功能 ， 把 告警 、 性 能 、 配 置 、 部 署 
等 功能 逐一 分 解 为 一 个 个 单独 的 APP， 比 如 Chef、Puppet 等 。 


6.2.4 ”开放 接口 的 类 型 和 开放 接口 的 形式 


再 谈 谈 关于 开放 API 的 接口 类 型 和 形式 的 关系 。 我 们 通常 说 开放 接口 是 RESTFUL 
的 接口 、C API 接口 、 消 息 接 口 或 者 是 Java API， 这 是 接口 形式 。 接 口 形式 其 实 没有 那 
么 重要 ， 一般 的 业务 操作 接口 对 性 能 要 求 不 高 ， 所 以 RESTFUL、Netconf 就 可 以 了 ， 而 
资源 操作 接口 要 求 密集 调用 ， 所 以 需要 一 些 高 性 能 接口 ， 比 如 C API/Java API 接口 。 我 
们 对 接口 分 层 更 多 是 指 接 口 类 型 分 层 ， 而 不 是 接口 形式 分 层 。 接 口 类 型 通常 指 的 是 开放 
什么 类 型 接口 ， 比 如 资源 操作 接口 、 业 务 操作 接口 等 ， 这 些 接口 类 型 可 以 采用 任何 一 个 
接口 形式 来 承载 ， 比 如 读 取 拓 扑 接 口 ， 可 以 是 C APIJava API， 也 可 以 是 RESTFULL， 
其 差异 可 能 体现 为 性 能 上 的 不 同 ， 而 不 是 本 质 上 的 不 同 。 





6.3 ”控制 器 需要 开放 标准 的 抽象 转发 流 表 模型 接口 


开放 可 编程 能 力 ， 都 希望 SDN 控制 器 平台 能 够 屏蔽 下 面 多 厂家 的 设备 差异 ， 使 得 
上 面 的 控制 类 APP 能 够 通过 调用 统一 的 NetOS API 接口 来 完成 新 业务 创新 , 而 这 些 接口 
从 调用 方向 上 大 体 可 以 分 为 读 取信 息 和 写 入 信息 。 读 取信 息 只 读 取 网 络 状 态 信息 ， 比 如 
拓扑 信息 、 统 计 信息 、 资 源 分 配 等 ， 而 写 入 信息 最 重要 的 就 是 生成 的 转发 表 信 息 或 者 流 
表 信 息 ， 这 些 流 表 信 息 是 需要 通过 控制 器 写 入 到 转发 器 的 。 然 而 不 同 厂家 的 转发 表 实 现 
模型 可 能 不 同 ， 到 底 如 何在 控制 器 平台 层 定义 一 层 抽 象 的 流 表 模 型 来 屏蔽 底层 多 厂家 转 
发 器 不 同 的 转发 模型 呢 ? 这 个 问题 是 迄今 为 止 开放 可 编程 领域 里 面 最 为 复杂 和 困难 的 部 
分 ， 但 也 恰恰 是 用 户 关 心 的 问题 ， 因 为 用 户 希望 实现 多 厂家 互通 ， 必 须 解 决 这 个 问题 。 
SDN 提出 的 一 个 最 重要 的 转 控 分 离 协议 就 是 OpenFlow， 该 协议 已 经 发 展 了 好 几 个 版 本 ， 
从 OpenFlow 1.0 到 1.3 版 本 、1.4 版 本 等 。 而 从 1.0 版 本 的 单 流 表 发 展 到 1.3 版 本 的 多 表 ， 
都 是 试图 定义 一 种 转发 语言 ， 使 得 未 来 能 够 通过 一 个 达到 期 望 的 抽象 统一 的 模型 接口 ， 
来 操作 多 厂家 的 设备 。1.0 版 本 讲 的 是 一 个 单 表 结 构 ， 就 是 一 个 报 文 进入 到 转发 器 ， 只 需 
要 在 一 个 表 中 匹配 表 项 记录 ， 中 间 可 能 有 很 多 MATCH 字段 ， 匹 配 完成 后 ， 这 个 表 项 记 
录 中 会 有 很 多 的 操作 指令 。 这 个 版 本 最 致命 的 问题 就 是 转发 表 数 据 会 急剧 膨胀 。 简 单 说 
这 个 单 表 设计 没有 遵从 数据 库 表 设 计 的 基本 原则 ， 使 得 转发 表 内 产生 大 量 转 发 表 数据 元 
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余 ， 导 致 基本 无 法 满足 商用 要 求 。 
图 6-2 所 示 是 一 个 典型 的 OpenFlow 1.0 流 表 ， 只 有 一 张 表 ， 显 然 这 样 做 会 产生 大 量 
数据 元 余 ， 所 以 现在 基本 不 用 了 。 





Ingress | Ether Ether | Ether | VLAN | VLAN IP TCP/UDP| TCP/UDP 
2 IP sre | IPdst 
Port source | dst type | id Priority proto | src port |dstport 
图 6-2 OpenFlow 1.0 流 表 (来 自 互 联网 公开 资料 ) 


1.3 版 本 利用 多 表 机 制 ， 基 本 上 解决 了 数据 表 数 据 见 余 问 题 ， 其 基本 的 操作 模式 为 
Match-Action-Goto NextTable。 当 报 文 进入 转发 器 ， 支 持 OpenFlow 1.3 的 转发 引擎 在 每 
个 表 中 都 执行 差不多 类 似 的 操作 模式 Match-Action-Goto NextTable 操作 ， 直 到 把 这 个 报 
文 送出 到 某 个 接口 为 止 。 

OpenFlow 1.3 的 多 表 架 构 如 图 6-3 所 示 ， 每 个 表 基 本 上 都 执行 Match-Action-Goto 
NextTable 操作 。 









Flow Tables ARP/ND Exception Group Table 


TTL Exception 










SELECT 
ETH_DST IN_PORT IN_PORT VLAN_VID -se [Meast 
ETH_ VLAN_. VLAN_VID ETH_DST 
TYPE VID ETH_SRC 
pe 
,Trafficto controller is metered Entries 


“Control Frame table not merged with ACLtable because Ingress VID table 
would add VLAN to control frames that are not associated witha VID 


图 6-3 ”OpenFlow 1.3 多 流 表 架构 
(图 来 自 ONF 的 标准 文稿 : <OpenFlow Table Type> 链接 : https://www.opennetworking.org/images/stories/ 
downloads/sdn-resources/onf-specifications/openflow/OpenFlow%20Table%20Type%20Patterns%20v1.0.pdf) 


那么 有 了 OpenFlow 协议 ， 是 否 就 可 
以 达到 所 说 的 可 以 真正 地 屏蔽 底层 设备 ea 
[Table2] 


的 转发 模型 的 差异 了 呢 ? 看 看 图 6-4 所 示 
两 个 OF (COpenFlow) 的 流 表 。 Ca) OpenFlow 流 表 示例 1 

由 于 不 同 厂家 实现 的 都 是 标准 OF 转 
发 设备 ， 对 于 一 个 支持 OF 转发 指令 的 转 Lp 
发 器 而 言 ， 如 果 把 转发 流 表 1 下 发 给 这 个 


转发 器 是 可 以 进行 转发 的 ， 同 样 地 把 转发 





ALL 










流 表 2 下 发 给 转发 器 ， 这 个 转发 器 也 是 可 中 ea 
以 工作 的 。 但 是 现在 的 问题 是 ， 如 果 有 两 图 64 一 个 业务 的 不 同 流 表 实现 示例 


个 网 络 业 务 应 用 程序 ， 分 别 产 生 了 流 表 1 和 流 表 2， 并 且 它 们 要 把 这 些 转 发 信息 同时 下 
发 到 一 个 支持 OF 转发 指令 的 转发 器 上 ， 这 时 转发 器 该 怎么 工作 ? 当然 不 能 工作 。 如 果 
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说 一 定 要 设计 一 种 可 以 工作 的 方法 ， 那 么 就 需要 转发 器 实现 虚拟 化 ， 把 一 台 转 发 器 虚拟 
成 为 两 台 转 发 器 ， 然 后 每 个 流 表 加 载 到 一 个 虚拟 转发 器 上 面 。 但 是 这 样 的 话 ， 相 当 于 转 
发 器 虚拟 成 两 台 转 发 器 ， 没 有 解决 问题 。 如 果 有 更 多 的 APP 产生 各 自 不 同 的 OF 流 表 ， 
并 下 发 给 同一 转发 器 ， 转 发 器 该 怎么 办 ? 事实 上 网 络 业 务 就 那么 多 ， 只 是 因为 每 个 网 络 
业务 应 用 程序 在 开发 业务 时 ， 都 是 根据 自己 的 理解 设计 的 转发 表 而 导致 各 自 下 发 不 同 的 
转发 流 表 模 式 问题 。 

为 了 解决 上 面 的 问题 ， 可 以 在 控制 器 上 实现 一 个 流 表 变换 程序 ， 如 图 6-5 所 示 。 


le 
流 表 2 








: 






流 表 1 






Table0 Table3 


Table2 


ss 


转发 器 支持 流 表 m 
图 6-5 流 表 转 换 示例 


每 个 流 表 用 一 个 TTP (Table Typing Patterns) 文件 来 描述 自己 ， 然 后 中 间 用 一 个 万 
能 变换 程序 对 输入 数据 根据 TTP 文件 进行 变换 。 比 如 ， 当 输入 流 表 1， 希 望 输出 流 表 m， 
那么 ， 就 需要 利用 这 个 万 能 变换 程序 fF， 对 输入 的 流 表 1 的 TTP 定义 文件 、 流 表 m 的 
TTP 定义 文件 和 流 表 1 格式 的 转发 数据 作为 输入 ,产生 一 个 流 表 m 格式 的 转发 数据 输出 ， 
就 像 以 下 的 变换 公式 

F( 流 表 1.ttp, 流 表 m.ttp, 流 表 1 的 输入 流 表 数 据 ) = 流 表 m 所 需 的 流 表 数 据 

这 个 万 能 的 转换 程序 ， 看 起 来 可 以 解决 各 种 流 表 之 间 的 变换 。 但 是 这 个 技术 相当 复 
杂 ， 主 要 问题 是 每 个 厂家 的 TTP 描述 文件 本 质 上 包含 特定 业务 的 语义 在 其 中 ， 要 想 实 现 
这 个 万 能 程序 可 能 非常 困难 。 不 过 目前 一 些 开源 组 织 试图 实现 这 个 变换 程序 。 实 现 了 倒 
是 一 件 好 事情 ， 但 是 ， 至 少 现在 还 没有 厂家 和 开源 组 织 实际 开发 出 这 样 一 个 能 够 工作 的 
万 能 变换 程序 。 

还 有 另外 一 个 实现 方案 。 其 实 流 表 结 构 的 定义 基本 原理 是 清楚 的 ， 其 中 关键 的 表 项 
都 是 和 报 文 封装 紧密 相关 的 ， 比 如 一 个 基本 的 卫 报 文 的 格式 如 图 6-6 所 示 。 


MAC header IP header IP payload 


图 6-6 典型 的 IP 报 文 封装 
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那么 其 转发 表 如 图 6-7 所 示 。 


|e} ou 


图 6-7 了 他 报 文 的 转发 流 表 

第 一 个 表示 入 接口 表 , 然后 进入 MAC 表 处 理 报 文 的 MAC 头 ， 再 进入 IP 路 由 表 , 根 
据 报 文 的 全 头 的 目的 中 地址 匹配 他 路 由 表 的 前 级 ， 从 而 知道 出 接口 并 封装 链 路 头发 送 。 
既然 如 此 ， 可 以 考虑 在 SDN 控制 器 平台 层 抽象 定义 一 套 统 一 的 流 表 模 型 ， 这 个 流 表 模 型 
是 根据 报 文 协议 栈 层 次 定义 的 。 如 果 需 要 增加 新 的 报 文 封装 类 型 ， 可 以 就 在 控制 器 平台 增 
强 这 个 模型 使 得 模型 能 够 支持 新 的 报 文 封装 。 当 然 ， 前 提 是 必须 保持 一 套 唯 一 的 标准 流 模 
型 ， 这 样 不 管 转发 层 是 哪个 供应 商 的 转发 器 ， 都 可 以 支持 不 同 的 转发 模型 ， 只 是 需要 厂家 
定义 一 个 驱动 程序 。 这 个 驱动 程序 从 标准 的 统一 的 流 模型 转换 为 转发 器 厂家 自 定义 的 转发 
模型 。 在 这 个 抽象 流 表 模 型 上 面 ， 所 有 的 网 络 业务 应 用 程序 只 能 通过 这 个 标准 流 模型 来 下 
发 流 表 。 这 种 技术 是 容易 实现 的 ， 前 提 就 是 控制 器 平台 是 定义 这 个 业务 抽象 流 表 的 模型 。 
控制 器 如 果 不 定 义 标准 抽象 模型 ， 就 无 法 达到 对 网 络 业务 应 用 程序 屏蔽 底层 转发 器 的 功 
能 。 而 所 谓 的 控制 类 APP 或 者 说 网 络 业务 应 用 程序 到 底 在 实现 哪些 功能 ， 其 实 本 质 上 核 
心 的 功能 就 是 给 这 个 模型 中 的 不 同 表 添 加 数据 而 已 。 比 如 ， 可 以 用 一 个 程序 给 卫 表 添 加 
数据 ， 可 以 是 静态 的 ， 也 可 以 是 通过 BGP 学 习 过 来 的 人 * 前 级 ， 都 可 以 添加 全 转发 数据 。 
再 看 看 MAC 表 ， 可 以 由 一 个 应 用 程序 专门 为 MAC 表 生 成 数据 ， 比 如 BGP，ARP 可 以 向 
MAC 表 中 添加 数据 ， 也 可 以 是 任何 其 他 必要 的 应 用 程序 向 其 中 添加 数据 。 所 以 网 络 业 务 
应 用 程序 本 质 上 实现 的 主要 功能 是 向 模型 中 的 表 添 加 数据 。 笔者 认为 这 种 在 控制 器 平台 层 
定义 标准 业务 抽象 流 表 模 型 的 方案 才 是 正确 的 方向 。 





6.4 其 他 开放 接口 的 形式 


作为 一 个 网 络 业务 应 用 程序 开发 程序 员 ， 可 能 不 希望 向 这 个 标准 的 流 模型 中 的 每 个 
表 目 己 添 加 数据 ， 例 如 对 于 一 个 三 层 IP 转发 的 业务 ， 程 序 员 其 实 不 关心 MAC 表 到 底 怎 
么 生成 , 可 能 只 是 根据 自己 的 策略 修改 IP 转发 表 中 的 部 分 表 项 ， 就 是 说 程序 员 可 能 希望 
看 到 的 编程 接口 是 : 

AddIPRoute (FPID,VRFID,IP Prefix,nexthop,outgoing interface); 


FPID 是 转发 器 ID， 这 个 API 调用 是 指示 某 个 FP 的 一 个 VRF 中 增加 一 条 卫 路 由 ， 
但 是 这 个 网 络 业务 应 用 程序 并 不 希望 自己 向 ARP 表 中 增加 二 层 信息 , 而 是 希望 控制 器 自 
己 能 够 补充 相关 二 层 信息 。 

同样 道理 , 如果 希望 控制 MPLS 隧道 (用 于 建立 网 络 内 部 的 Fabric 交换 路 径 ) 建立 ， 
那么 程序 员 可 能 希望 通过 这 样 的 程序 接口 来 添加 MPLS 交叉 路 径 ， 

AddLsp (FEID,VRFID,InInterface,InLabel,OutInterface,Outiabel ) ; 

其 他 的 转发 过 程 中 所 需 数据 ， 程 序 员 并 不 关心 。 

所 以 ， 为 了 方便 编程 ， 开 放 的 接口 可 能 需要 考虑 这 些 开 放 接口 的 易 用 性 因素 ， 系 统 
可 以 自动 补 齐 那些 程序 员 不 关心 的 表 。 要 做 到 这 些 ， 控 制 器 需要 集成 一 些 默认 的 网 络 业 
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务 应 用 程序 和 业务 协议 ,比如 ARP 协议 等 。 这 个 接口 实际 上 是 开放 了 每 个 转发 器 的 部 分 
关键 资源 表 的 编程 接口 ， 使 得 程序 员 使 用 起 来 非常 简单 。 

由 于 控制 器 需要 和 域外 其 他 控制 器 或 者 传统 网 络 交 互 路 由 数据 ， 所 以 肯定 需要 BGP， 
但 是 BGP 中 最 复杂 多 变 的 是 选 路 策略 部 分 。 如 果 把 BGP 集中 控制 ， 当 需要 增加 新 的 策略 控 
制 时 ， 就 不 用 去 升级 设备 软件 ， 通 过 对 控制 器 上 面 的 BGP 程序 进行 增强 就 可 以 完成 这 个 工 
作 ; 同时 需要 开放 一 些 BGP 方面 的 编程 接口 ， 比 如 允许 程序 员 读 取 所 有 BGP 邻居 学 习 来 的 
路 由 ， 人 允许 程序 员 直 接 对 某 些 前 缀 进行 选 路 后 增加 到 BGP 模块 ， 提 供 的 编程 接口 可 以 是 : 


ReadBGPRoute (VRFID,BGP PEER ID); 
SetBGPRoute (IP prefix, nexthop, attributes): 


通过 这 种 类 似 方式 ， 可 以 为 BGP 灵活 地 增加 各 种 策略 ， 仅 仅 需 要 开放 BGP 的 这 些 路 
由 查询 和 路 由 添加 接口 ， 就 可 以 使 得 控制 类 APP 很 容易 实现 各 种 选 路 策略 需求 ， 在 这 个 层 
次 上 ， 其 实 开放 的 已 经 是 控制 器 上 的 网 络 业务 应 用 程序 中 的 控制 类 协议 的 数据 操作 接口 。 

图 6-8 展示 了 一 个 典型 的 网 络 业 务 应 用 程序 开发 逻辑 , 其 中 展示 了 网 络 业务 应 用 程序 可 
以 调用 多 层 开 放 接 口 ， 包 括 策略 接口 、 路 由 控制 接口 、 业 务 接口 等 。 其 基本 过 程 是 ， 首 先是 
用 户 业 务 或 者 策略 输入 ， 然 后 APP 收集 网 络 状 态 信 息 。 并 根据 用 户 输入 和 网 络 状 态 信 息 生 
成 控制 信息 下 发 给 控制 器 ， 控 制 器 下 发 到 转发 器 ， 最 后 是 验证 业务 部 署 的 有 效 性 。 这 样 一 来 ， 
网 络 业务 应 用 程序 通过 给 转发 器 下 发 流 表 ， 实 现 了 用 户 的 业务 。 如 果 此 时 网 络 拓扑 发 生变 化 ， 
那么 ， 控 制 器 内 部 的 网 络 业 务 应 用 程序 会 获得 一 个 网 络 状态 变化 事件 通知 ， 网 络 业务 应 用 程 
序 就 会 根据 网 络 状态 来 重新 计算 业务 路 由 或 者 网 络 交换 路 径 ， 并 把 这 些 新 的 路 由 或 路 径 信息 
转发 到 转发 器 ， 使 得 用 户 业务 能 够 在 网 络 状态 变化 时 依然 继续 运行 。 


1. 用 户 业 务 / 策 略 输入 








APP 
5. a 二 调用 业务 、 策 略 控制 ”|[4. 验证 部 署 效果 
2. 获取 网 络 资源 状态 \\ 


了 策略 控制 
) 各 种 网 络 故 障 事 件 (1) 各 时 训 六 
(2) 数据 控制 策略 接口 
ls (3) ACL 等 
(4) 系统 状态 监控 3 


高 层 业 务 接口 
(1) PW 服务 
(2) VSI 服务 
(3) L3VPN 服务 
(4) TE 服务 


(1) ge 










图 6-8 典型 网 络 业务 应 用 程序 的 开发 逻辑 
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【本 章 小 结 】 


本 章 重 点 介绍 了 控制 器 必须 具备 的 开放 性 的 内 涵 ， 包 括 网 络 操作 系统 层 的 资源 操作 
接口 NetOS API， 也 包括 开放 驱动 程序 开发 接口 SBI， 同 时 还 开放 了 控制 器 本 身 的 网 络 
业务 接口 NBI。 本 章 也 介绍 了 网 络 北向 接口 NBI 的 严格 标准 化 统一 定义 和 网 络 业务 快速 
创新 之 间 是 存在 冲突 的 ， 如 果 要 加 速 网 络 控制 类 业务 的 创新 速度 ， 就 不 能 等 待 这 种 业务 
的 操作 接口 先 标准 化 ， 所 以 这 种 权衡 取舍 是 非常 困难 的 。 
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SDN 控制 器 是 网 络 中 的 一 个 关键 设备 ， 它 控制 着 整个 网 络 ， 其 安全 性 就 成 为 很 关键 
的 问题 ， 一 旦 其 被 攻击 导致 控制 器 被 劫持 、 非 法 接 入 或 者 无 法 提供 正常 服务 等 ， 网 络 的 
转发 业务 也 就 无 法 保证 了 。 于 是 有 不 少 专家 认为 ，SDN 网 络 架构 下 ， 由 于 集中 控制 无 法 
解决 安全 问题 ， 所 以 很 难 商 用 ， 甚 至 不 能 商用 。 这 种 观点 表达 了 对 SDN 网 络 架构 下 安全 
问题 的 一 种 担心 和 焦虑 ， 但 是 是 否 因 为 安全 问题 存在 就 不 要 去 搞 SDN 了 ? 那 倒 不 一 定 。 
今天 的 互联 网 金融 ， 可 以 处 理 人 们 最 为 紧张 的 金钱 事务 交易 ， 人 们 在 互联 网 上 面 进行 转 
账 、 炒 股 、 购 物 等 。 这 些 事 关 金钱 的 各 种 交易 可 以 在 互联 网 上 进行 是 以 前 不 敢 想 象 的 ， 
但 是 今天 人 们 都 在 大 规模 使 用 互联 网 来 进行 这 些 至 关 重 要 的 活动 。 这 说 明 ， 采 用 合适 的 
安全 措施 后 ， 是 能 够 解决 各 种 安全 问题 ， 使 得 SDN 网 络 系统 达到 可 以 商用 的 目的 的 。 本 
章 介 绍 SDN 相关 的 安全 威胁 和 安全 对 策 。 


7.1 安全 性 定义 


安全 性 是 要 解决 系统 的 可 用 性 、 机 密 性 和 数据 完整 性 问题 。 

可 用 性 是 指 系统 能 够 始终 提供 服务 ， 这 个 可 用 性 和 可 靠 性 密切 相关 。 不 可 靠 的 网 络 
通常 不 能 保证 可 用 ， 所 以 需要 提高 系统 的 可 靠 性 。 另 外 一 个 方面 ， 系 统 要 能 够 应 对 DoS 
《拒绝 服务 )、DDoS (分 布 式 拒绝 服务 ) 攻击 。 这 些 攻击 发 起 者 主要 目的 是 要 让 系统 不 可 
用 ， 所 以 我 们 的 一 个 目的 就 是 要 解决 这 些 拒绝 服务 攻击 问题 ， 使 得 系统 能 够 始终 提供 其 
承诺 的 服务 ， 这 些 都 是 可 用 性 范围 。SDN 可 靠 性 在 前 面 章节 已 经 介绍 过 了 ， 本 章 不 再 讨 
论 相 关内 容 。 

机 密 性 是 指 系统 的 资源 只 能 提供 给 应 该 获得 该 资源 的 人 ， 其 他 人 则 无 法 获得 这 些 资 
源 ， 即 使 他 们 获得 资源 通信 过 程 中 的 消息 ， 也 无 法 获得 其 内 部 表达 的 信息 。 机 密 性 的 安 
全 威胁 主要 是 信息 泄密 ， 比 如 ， 如 果 使 用 明文 在 网 络 上 传送 数据 ， 那 么 就 有 可 能 被 其 他 
人 截获 这 些 明 文 数 据 ， 比 如 银行 账号 、 密 码 等 信息 。 这 种 数据 泄密 的 影响 是 巨大 的 ， 攻 
击 人 员 会 通过 各 种 办 法 试图 获得 网 络 上 他 们 感 兴趣 的 数据 。 有 人 关心 商用 数据 ， 有 人 关 
心 社交 数据 ， 有 人 关心 各 种 用 户 信 息 ， 总 之 通信 过 程 中 的 泄密 会 导致 重大 损失 。 通 常 ， 
解决 机 密 性 问题 的 技术 手段 包括 物理 隔离 、 数 据 加 密 等 方法 。 

完整 性 是 指 系统 始终 提供 正确 的 数据 能 力 , 即 系统 中 不 能 出 现 错误 数据 和 不 一 致 
的 数据 。 程 序 本 身 也 是 一 种 数据 ， 如 果 数 据 或 者 程序 被 更 改 ， 系 统 就 会 按照 错误 的 数 
据 或 者 代码 逻辑 运行 , 这些 数据 和 届 辑 不 是 用 户 期 望 的 数据 和 逻辑 , 那么 数据 就 不 完 
整 ; 如 果 通 信 过 程 中 数据 被 自 改 ， 系 统 或 者 用 户 可 能 收 到 错误 的 非 期 望 的 数据 。 比 如 
有 人 通过 网 络 转账 500 元 ， 如 果 被 算 改 为 转账 50000 元 ,那么 损失 就 很 严重 了 。 另 外 
代码 在 传递 过 程 中 可 能 被 算 改 , 并 植 入 后 门 ， 以 便 后 续 利 用 这 些 后 门 进行 各 种 破坏 活 
动 。 解 决 数据 完整 性 问题 通常 采用 给 数据 增加 摘要 信息 或 者 数字 签名 等 技术 来 解决 ， 
通过 校 验 摘要 或 者 签名 来 确认 数据 是 否 被 修改 过 。 

各 种 安全 技术 主要 是 解决 上 述 三 种 安全 威胁 问题 。 分 析 安 全 问题 通常 和 分 析 可 靠 性 
问题 相似 ， 需 要 先 分 析 一 下 网 络 可 能 存在 的 各 种 攻击 手段 ， 然 后 我 们 再 针对 这 些 攻击 手 
段 讨 论 如 何 进行 安全 防御 ， 下 面 先 就 攻击 手段 进行 讨论 。 


第 7 章 SDN 网 络 的 安全 性 151 


7.2 SDN 网 络 的 非法 攻击 手段 分 析 


SDN 网 络 的 非法 攻击 通常 是 针对 SDN 网 络 实体 进行 的 各 种 攻击 。SDN 网 络 系统 的 
实体 包括 转发 器 、 控 制 器 、 协 同 层 应 用 程序 以 及 这 些 实体 之 间 的 互联 网 络 。SDN 网 络 中 
关键 的 一 个 部 件 是 SDN 控制 器 。SDN 控制 器 是 由 一 组 服务 器 之 间 的 互联 网 络 、 软 件 系 
统 实 体 构 成 ， 软 件 系统 又 包括 虚拟 机 、 操 作 系 统 、 分 布 式 中 间 件 、SDN 控制 器 程序 等 。 
所 以 ， 需 要 重点 分 析 攻 击 者 如 何 攻 击 这 些 实体 的 完整 性 、 机 密 性 和 可 用 性 ， 再 分 析 如 何 
针对 这 些 实体 进行 安全 防护 。 

目前 主要 的 攻击 手段 也 都 是 面向 可 用 性 、 数 据 机 密 性 和 完整 性 展开 的 ， 大 体 分 为 : 

QD 非法 接 入 ; 

@ 窃 密 ; 

@) 算 改 和 支持 ; 

@ 拒绝 服务 攻击 。 


7.2.1 ”非法 接 入 攻击 


通常 是 指 未 授权 接 入 。 攻 击 者 通过 各 种 技术 和 非 技 术 手 段 获得 系统 的 接 入 权限 ， 一 
且 获 得 系统 的 接 入 权限 ， 他 们 就 可 以 对 系统 进行 非法 信息 收集 、 信 息 修 改 、 破 坏 等 各 种 
活动 ， 和 危害 性 非常 大 。 他 们 采用 的 技术 手段 类 似 强力 破解 攻击 、 欺 骗 等 方法 获取 接 入 用 
户 信息 ， 然 后 通过 这 些 用 户 信 息 接 入 网 络 ;， 非 技术 手段 通常 是 一 些 间谍 手段 ， 比 如 买通 
内 部 人 员 ， 也 有 收集 相关 办 公 区 的 各 种 物理 废弃 物 ， 从 中 获得 有 价值 的 信息 。 

解决 此 类 问题 的 基本 技术 手段 就 是 进行 身份 认证 ， 接 入 者 必须 提供 正确 的 用 户 名 和 
密码 ， 只 有 通过 了 身份 认证 的 接 入 才 被 允许 ， 也 可 以 通过 证 书 方式 进行 认证 ， 只 有 持 有 
合法 证 书 的 用 户 或 者 设备 才能 接 入 系统 。 另 外 一 个 方面 ， 需 要 对 关键 信息 资产 制定 严格 
的 管理 措施 ， 避 免 被 采用 非 技术 手段 获取 关键 信息 。 其 他 一 些 针对 非法 接 入 的 防御 技术 
包括 进行 源 地 址 过 滤 技 术 ， 仅 仅 允 许 那些 获得 允许 的 源 地 址 主机 接 入 系统 ， 通 过 系统 的 
安全 认证 后 才能 继续 访问 主机 ， 这 样 做 可 以 增加 非法 接 入 的 攻击 难度 。 


7.2.2 ” 窃 密 


通常 是 通过 各 种 手段 获取 有 用 信息 ， 尤 其 是 对 一 些 网 络 上 传送 的 明文 信息 进行 窃听 
和 分 析 ， 从 中 获得 有 用 的 信息 。 他 们 最 关心 的 信息 主要 是 各 种 用 户 信息 和 密码 ， 以 便 用 
这 些 数据 进行 进一步 攻击 。 

解决 这 个 问题 的 技术 手段 主要 是 对 数据 进行 加 密 ， 使 得 第 三 方 即使 获得 加 密 数 据 也 
无 法 反 向 获得 明文 数据 ， 这 样 他 们 截获 的 密 文 就 没有 用 处 了 。 加 密 通 常 有 对 称 加 密 〈 比 
如 DES/3DES) 和 非 对 称 加 密 (比如 RSA)。 对 称 加 密 通 常 适 用 于 大 量 数据 传送 ,需要 双 
方 拥有 相同 的 密 钥 来 进行 加 密 和 解密 ， 非 对 称 加 密 通 常用 于 少量 数据 加 密 传送 ， 双 方 有 
不 同 密 钥 进 行 加 密 和 解密 ， 比 如 一 方 用 密 钥 A 加 密 ， 另 外 一 方 用 密 钥 B 解密 。 非 对 称 加 
密 的 性 能 很 低 ， 不 适合 大 量 数据 通信 ， 但 是 其 保密 性 好 ， 不 易 被 破解 。 
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7.2.3 ” 纂 改 和 劫持 


主要 是 对 通信 信息 进行 修改 或 者 劫持 。 动 持 通 常 是 指 欺骗 通 信 实 体 。 通 信 实 体 以 为 
自己 在 和 其 认为 的 实体 通信 , 但 是 实际 上 他 们 中 的 一 个 已 经 被 劫持 ,通信 实体 并 不 知道 ， 
从 而 导致 系统 无 法 提供 正常 服务 或 者 泄密 。 也 有 另外 一 种 攻击 方式 ， 称 为 中 间 人 攻击 ， 
攻击 者 夹 在 通信 实体 中 间 ， 通 信 实 体 以 为 自己 正在 跟 信 任 的 对 方 通信 ， 但 是 实际 上 都 在 
和 攻击 者 通信 ， 这 样 攻击 者 就 可 以 获取 所 有 他 们 之 间 的 通信 数据 。 

另外 还 有 一 类 攻击 属于 重 放 攻 击 。 攻 击 者 截获 某 次 通信 实体 之 间 的 交互 数据 后 ， 在 
以 后 的 某 个 时 刻 ， 冒 充 其 中 一 个 通信 实体 和 另外 一 个 通信 实体 进行 通信 。 攻 击 的 数据 是 
来 自前 面 攻击 者 截获 的 交互 数据 。 这 种 攻击 导致 某 些 事务 被 重复 执行 。 比 如 军事 通信 中 ， 
上 一 次 秘密 通信 中 部 队 收 到 的 指令 是 攻击 某 个 高 地 ， 几 天 后 ， 攻 击 者 通过 重 放 攻 击 ， 使 
得 部 队 再 次 收 到 一 个 攻击 该 高 地 的 命令 。 显 然 这 是 很 危险 的 。 

解决 这 类 问题 通常 也 是 使 用 加 密 技 术 。 为 了 解决 类 似 重 放 攻击 ， 在 加 密 数 据 中 可 以 
增加 序列 号 或 者 时 间 戳 标记 。 如 果 仅仅 为 了 解决 自 改 问题 ， 而 不 解决 机 密 性 问题 ， 也 可 
以 通过 增加 摘要 信息 来 解决 ， 比 如 通过 MD5 摘要 ， 可 以 确保 数据 不 被 算 改 。 


7.2.4 拒绝 服务 攻击 


这 种 攻击 主要 的 目的 就 是 破坏 系统 ， 使 得 系统 无 法 提供 正常 服务 。 

拒绝 服务 对 系统 正常 运行 的 破坏 是 最 难以 预防 的 ， 通 常 需 要 根据 具体 的 攻击 方法 进 
行 具体 的 防御 。 比 如 ， 有 不 少 攻击 是 流量 攻击 ， 流 量 攻 击 采 用 DDoS 分 布 式 拒绝 服务 
攻击 ) 方式 ， 攻 击 者 预先 已 经 支持 了 分 布 在 全 球 的 大 量 无 就 的 主机 ， 这 些 主 机 会 被 攻击 
者 控制 向 某 个 特定 目标 发 起 攻击 ， 导 致 大 量 攻 击 流量 占用 通道 资源 和 系统 资源 ， 使 正常 
的 服务 资源 无 法 得 到 保证 ， 其 关键 难点 是 难以 发 现 真 正 的 攻击 者 。 另 外 一 个 典型 的 例子 
是 TCP SYN 攻击 ， 利 用 TCP 报 文 连接 建立 过 程 ， 攻 击 者 占用 大 量 的 TCP 连接 资源 ， 导 
致 系统 无 法 提供 正常 TCP 连接 服务 。 


7.3 SDN 网络 的 整 网 防御 措施 


SDN 网 络 的 核心 目的 是 提供 数据 转发 服务 ， 所 以 首先 应 该 确保 该 SDN 网 络 能 够 正 
常 转发 数据 ， 而 不 应 该 使 通过 该 网 络 的 数据 被 拒绝 ， 同 时 需要 仔细 应 对 那些 直接 发 送 给 
网 络 的 控制 器 和 应 用 程序 或 者 转发 嚣 本身 的 流量 ， 因 为 这 种 流量 背后 就 可 能 潜藏 着 攻击 
流量 。 

对 于 SDN 整 网 进行 攻击 大 概 有 两 点 ， 第 一 点 是 试图 让 SDN 网 络 转发 非法 数据 ， 第 
二 点 是 试图 把 非法 流量 直接 发 送 给 网 络 本 身 的 实体 ， 比 如 转发 器 、 控 制 器 、 应 用 程序 。 
由 于 SDN 网 络 本 身 的 目的 就 是 提供 用 户 报 文 转发 服务 ， 在 SDN 网 络 边界 全 部 部 署 防火 
墙 是 不 可 能 的 ， 也 是 没有 必要 的 。 

面 对 上 述 两 种 攻击 ， 可 以 利用 SDN 集中 控制 结合 大 数据 分 析 技 术 对 整 网 进行 防护 ， 
其 基本 原理 如 图 7-1 所 示 。 
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SDN 网 络 系统 





图 7-1 SDN 网 络 整 网 安全 方案 


该 网 络 安全 方案 原理 主要 是 在 网 络 中 部 署 安全 大 数据 分 析 部 件 和 流量 清洗 部 件 ， 这 
个 安全 分 析 系 统 和 流量 清洗 部 件 可 以 算是 SDN 网 络 的 一 个 应 用 。 

安全 分 析 系 统 需 要 采集 网 络 流量 情况 进行 分 析 ， 如 果 发 现 有 一 些 非法 攻击 流量 ， 那 
么 安全 分 析 系统 可 以 通知 控制 器 立即 在 网 络 所 有 边界 阻 断 流量 或 者 引导 这 些 流量 到 流量 
清洗 部 件 , 通过 这 种 方式 可 以 解决 针对 SDN 网 络 分 布 式 流量 攻击 问题 。 此 方案 实时 性 很 
高 ,只 要 安全 分 析 系 统 识别 出 攻击 ,控制 器 可 以 立即 快速 反应 ,从 而 提高 SDN 网 络 的 安 
全 性 。 


7.4 ”SDN 控制 器 的 安全 性 考虑 


SDN 网 络 中 的 每 个 实体 的 安全 问题 , 是 我 们 尤其 应 该 关注 的 , 这 些 实体 包括 控制 器 、 
转发 器 、 应 用 程序 和 互联 它们 之 间 的 网 络 。 其 中 转发 器 的 安全 性 问题 在 传统 的 成 熟 设备 
形态 上 已 经 有 较 多 考虑 ， 这 里 不 再 讨论 ， 而 是 重点 讨论 SDN 控制 器 的 安全 问题 。 因 为 
SDN 控制 器 是 一 个 网 络 集中 点 ， 并 且 是 网 络 大 脑 ， 一旦 出 现 安全 问题 ,将 导致 整 网 服务 
受到 影响 。 

首先 ，SDN 控制 器 是 一 个 设备 ， 只 不 过 是 一 个 运行 在 通用 服务 上 的 软件 设备 。 根 据 
SDN 网 络 架构 的 特点 ，SDN 控制 器 的 外 部 通信 实体 是 比较 清楚 的 , 主要 包括 转发 器 、 其 
他 固定 的 邻居 系统 、 应 用 程序 和 控制 器 管理 系统 〈 管 理 控制 器 本 身 的 一 个 客户 端 系统 ， 
比如 客户 需要 登录 到 控制 器 进程 配置 等 )， 如 图 7-2 所 示 。 


控制 管理 系统 








其 他 控制 器 邻居 


7-2 通过 防火 墙 保护 SDN 控制 器 
这 些 通信 实体 的 了 PP 地 址 可 以 是 确定 的 ， 不 像 其 他 互联 网 服务 系统 ,是 面向 大 众 服务 
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的 ， 接 入 IP 是 不 确定 的 。 既 然 通信 实体 人 P 地 址 都 可 以 确定 ， 那 么 就 可 以 进行 有 效 的 访 
问 控制 ， 禁 止 一 切 非 法 的 了 P 地 址 流量 。 这 种 方式 可 以 有 效 地 阻挡 大 量 的 非法 攻击 。 

部 署 SDN 控制 器 时 建议 增加 一 人 台 防 火 墙 ， 所 有 和 控制 器 通信 的 系统 都 需要 经 过 这 
台 防 火 墙 。 这 样 通过 防火 墙 的 访问 控制 列表 ， 阻 断 了 所 有 非 允 许 进入 控制 器 的 卫 流量 。 
因为 控制 器 和 周边 通信 的 邻居 的 IP 地 址 都 是 确定 的 ， 这 样 就 产生 了 一 个 白 名 单 。 防火墙 
的 作用 是 只 允许 白 名 单列 表 的 设备 IP 报 文通 过 ， 这 样 就 有 效 地 解决 了 各 种 非法 源 IP 
地 址 主机 攻击 控制 器 的 问题 ， 无 论 是 非法 接 入 还 是 流量 攻击 ， 都 因为 防火 墙 阻 断 而 无 
法 到 达 控 制 器 。 

另外 可 能 的 防御 技术 还 包括 ， 可 以 试图 判定 和 控制 器 通信 的 所 有 实体 的 网 络 位 置 ， 
估计 出 正常 的 这 些 通 信 实 体 和 控制 器 之 间 的 通信 的 跳 数 。 通 常 IP 转发 每 经 过 一 台 路 由 器 
算是 一 跳 。 如 果 估 计 出 这 些 合法 通信 跳 数 都 是 在 10 跳 以 内 , 那么 可 以 在 防火 墙 部 署 跳 数 
控制 ， 把 那些 经 过 跳 数 多 于 10 跳 的 报 文 丢弃 掉 ， 把 它们 看 成 是 仿冒 IP 地 址 非法 攻击 。 

保护 控制 器 安全 的 另外 一 个 方法 是 ， 让 控制 器 和 转发 器 之 间 的 控制 通道 通信 网 络 组 
成 一 个 专 网 或 者 虚拟 网 络 ， 与 其 他 网 络 进行 有 效 隔离 。 这 种 专门 的 控制 通道 网 络 使 得 其 
他 网 络 流 量 根本 无 法 进入 其 内 部 ， 虽 然 并 不 是 所 有 的 解决 方案 场景 都 具备 这 个 条 件 ， 因 
为 大 部 分 控制 器 和 转发 器 之 间 的 通信 都 是 在 通道 内 进行 的 ， 就 无 法 部 署 这 个 技术 ， 但 是 
有 一 些 解决 方案 场景 下 这 种 方法 是 适用 的 ， 所 以 应 该 尽力 部 署 专 网 或 者 虚拟 网 络 为 控制 
通道 服务 。 

除了 限制 控制 器 与 特定 的 卫 地 址 通信 外 , 还 可 以 限定 允许 哪些 应 用 程序 协议 和 已 知 
的 通信 实体 (确定 的 人 P 地 址 ) 进行 通信 。 比 如 ， 控 制 器 和 转发 器 可 能 仅仅 允许 建立 
OpenFlow 连接 ; 与 管理 系统 仅仅 允许 建立 Netconf 连接 ， 和 周边 邻居 可 能 仅仅 允许 建立 
BGP 连接 。 通 过 这 种 限定 ， 不 仅 使 得 攻击 者 无 法 进行 IP 地 址 欺骗 攻击 ， 而 且 使 得 周边 
通信 设备 或 者 非法 攻击 者 无 法 和 控制 器 建立 非法 协议 的 连接 ， 这 样 就 解决 了 一 些 攻 击 者 
冒充 合法 设备 卫 进行 一 些 特定 的 协议 攻击 问题 。 

接 下 来 ， 如 果 某 个 转发 器 或 者 应 用 程序 本 身 被 攻击 者 攻破 ， 攻 击 者 此 时 假冒 那个 被 
攻破 的 设备 和 控制 器 进行 通信 ， 防 火 墙 就 没有 办 法 解决 这 个 问题 。 因 为 攻击 者 发 给 控制 
器 的 报 文 是 一 个 合法 转发 器 报 文 并 且 是 合法 的 协议 报 文 ， 防 火 墙 无 法 识别 出 这 种 情况 。 
此 时 需要 启动 另外 一 层 防 御 ， 就 是 应 用 层 防 御 ， 解 决 这 种 假冒 攻击 问题 。 控 制 器 需要 解 
决 的 接 入 者 身份 问题 ， 和 控制 器 有 连接 关系 的 设备 需要 接受 控制 器 的 身份 认证 ， 只 有 认 
证 通过 了 ， 才 能 进行 通信 。 身 份 认证 的 方法 有 很 多 种 ， 比 如 用 户 名 密码 认证 、 证 书 等 方 
法 。 总 之 ， 通 过 身份 认证 可 有 效 地 解决 接 入 设备 身份 识别 问题 ， 这 种 防御 已 经 是 控制 器 
内 部 应 用 程序 层面 部 署 的 防御 措施 了 。 

由 于 控制 器 会 和 大 量 的 转发 器 等 设备 建立 连接 ， 那 么 控制 器 是 采用 相同 的 认证 ID 还 
是 采用 不 同 的 认证 ID 呢 ? 如 果 采 用 相同 的 ID， 管 理 上 很 简单 。 如 相同 的 用 户 名 和 密码 与 
所 有 转发 器 进行 认证 ， 可 是 一 旦 一 个 转发 器 被 攻破 ， 所 有 转发 器 就 都 被 攻破 。 所 以 ， 建 议 
每 个 转发 器 和 控制 器 应 该 采用 不 同 的 身份 D 进行 认证 , 而 且 这 些 认 证 ID 必须 具有 一 定 的 
复杂 度 ， 不 能 过 于 简单 ， 系 统 提 供 密码 强度 检查 ， 当 系统 未 设置 指定 强度 的 密码 ， 则 不 接 
受 。 为 了 保证 ID 的 机 密 性 ， 还 应 该 考虑 定期 更 换 密码 ， 以 避免 长 期 使 用 的 密码 被 攻破 。 

还 有 一 个 密 钥 管理 问题 需要 注意 。 系 统 通信 的 加 密 有 对 称 加 密 方式 。 对 称 加 密 中 ， 
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通信 双方 必须 使 用 同样 的 一 个 密 钥 进行 加 密 和 解密 ， 那 么 这 个 密 钥 在 系统 使 用 过 程 中 就 
必须 有 明文 密 钥 ,才能 实施 加 密 和 人 解密。 但 是 在 保存 这 个 密 钥 时 ， 显 然 不 能 明文 保存 直 
接 使 用 ， 需 要 对 其 进行 加 密 保 存 ， 需 要 时 再 解密 回来 。 于 是 对 密 钥 的 加 密 和 解密 就 需要 
一 个 加 密 算 法 和 一 个 根 密 钥 。 加 密 算法 是 一 段 代码 ， 而 根 密 钥 是 一 个 数据 、 一 个 字符 串 。 
这 个 根 密 钥 通常 设计 成 一 个 固定 的 值 ， 以 数据 的 形式 保存 在 软件 发 行 包 中 。 但 这 种 做 法 
导致 一 个 问题 一 一 根 密 钥 泄露 问题 。 因 为 根 密 钥 通 常 不 会 经 常 改变 ， 算 法 也 不 会 经 常 改 
变 ， 于 是 有 人 就 比较 容易 获得 这 些 根 密 钥 和 算法 。 比 如 ， 离 职员 工 、 不 满员 工 都 可 能 导 
致 这 些 根 密 钥 和 算法 泄露 , 也 可 能 是 黑客 根据 软件 包 分 析 获 得 此 类 根 密 钥 。 这 种 情况 下 ， 
如 果 攻 击 者 又 获得 了 网 络 设备 的 配置 文件 ， 里 面 带 有 加 密 后 的 通信 密码 以 及 设备 几乎 所 
有 的 配置 信息 ， 比 如 配置 的 他 地 址 、 配 置 的 协议 、 配 置 的 安全 策略 、 业 务 密码 等 。 于 是 
攻击 者 很 容易 通过 分 析 上 述 信息 获取 配置 文件 中 的 用 户 名 信息 ， 从 而 就 很 容易 接 入 这 个 
配置 文件 所 属 设 备 ， 形 成 非法 接 入 攻击 。 尽 管 一 些 主流 厂商 系统 不 存在 这 样 的 问题 ， 但 
一 些 欠 缺 安 全 考虑 的 小 厂商 系统 经 常会 存在 这 样 的 问题 。 攻 击 者 也 可 以 获得 配置 文件 的 
业务 密码 ， 比 如 通过 根 密 钥 加 密 后 的 IPSec 密码 是 “xlylC89H12j”， 通 过 根 密 钥 进行 反 
解 获得 IPSec 的 业务 加 密 密 码 的 明文 比如 “toHBY10989”。 然 后 截获 用 户 传输 过 程 中 的 
加 密 数 据 并 利用 明文 密 钥 “toHBY10989” 进 行 反 向 解密 ， 这样 就 获得 用 户 的 保密 通信 数 
据 ， 形 成 窃听 活动 。 为 了 处 理 根 密 钥 问题 ， 可 以 试图 找 一 些 方法 。 其 中 一 个 方法 就 是 根 
密 钥 不 保存 在 设备 上 ， 而 是 存放 在 一 个 更 加 安全 的 专用 服务 器 上 ， 当 需要 时 系统 和 这 个 
安全 的 专用 服务 器 通信 获取 根 密 钥 和 算法 ， 对 所 需要 的 密 钥 进行 加 密 和 解密 ， 这 样 相当 
于 设备 根 密 钥 不 在 设备 软件 内 部 ， 可 以 有 效 地 防止 根 密 钥 泄露 。 还 有 一 个 方法 是 ， 使 用 
设备 动态 产生 根 密 钥 ， 这 样 每 个 设备 的 根 密 钥 不 同 ， 产 生根 密 钥 的 方法 可 以 是 与 设备 某 
些 物理 ID 相关 ， 比 如 将 设备 的 CPU 编号 、MAC 地 址 编号 和 启动 日 期 等 进行 一 些 变换 
后 形成 根 密 钥 。 但 是 这 种 方法 会 产生 一 个 后 果 ， 设 备 的 配置 文件 不 能 复制 给 其 他 的 替代 
设备 直接 使 用 ， 必 须 重新 修改 与 密码 相关 的 数据 ， 原 因 是 每 个 设备 的 根 密 钥 都 不 同 ， 所 
以 复制 过 去 的 与 密码 相关 的 数据 就 不 可 用 了 ， 不 过 ， 比 起 安全 问题 ， 这 点 不 便 应 该 是 可 
以 接受 的 。 

现在 假定 身份 认证 问题 也 解决 了 。 有 时 一 个 转发 器 并 没有 被 攻击 者 攻破 ， 但 是 由 于 
设计 原因 导致 转发 器 利用 自己 的 身份 对 控制 器 进行 了 事实 上 的 流量 攻击 ， 该 如 何 解决 ? 
转发 器 本 来 会 发 送 一 些 OpenFlow 的 Packet In 报 文 给 控制 器 ， 也 会 发 送 一 些 相关 状态 、 
事件 等 消息 给 控制 器 。 理 论 上 ， 转 发 器 不 会 发 起 流量 攻击 ， 但 是 有 些 时 候 由 于 设备 设计 
不 当 ， 也 会 发 生 一 些 没有 预料 到 的 流量 攻击 。 比 如 通过 未 知 流 触发 建立 流 表 的 技术 ， 当 
转发 器 发 现 自己 不 能 转发 某 个 报 文 时 ， 会 把 报 文 送 交 控制 器 处 理 ， 这 种 情况 非常 容易 被 
利用 。 攻 击 者 只 要 发 起 大 量 未 知 目的 地 址 报 文 给 转发 器 ， 转 发 器 就 会 把 这 些 报 文 全 部 转 
发 到 控制 器 ， 因 此 形成 对 控制 器 事实 上 的 流量 攻击 。 流 量 攻击 的 一 个 后 果 是 导致 控制 器 
计算 资源 被 消耗 ， 另 一 个 后 果 是 控制 器 和 转发 器 的 控制 通道 被 占用 ， 影 响 正 常 的 控制 数 
据 交 互 。 解 决 这 个 问题 的 方法 是 在 控制 器 或 者 防火 墙 上 采用 流量 控制 ， 对 每 个 设备 递交 
给 控制 器 的 报 文 流量 进行 限 速 ， 避 免 其 上 送 流量 超 限 。 但 还 是 无 法 解决 控制 通道 带宽 被 
无 辜 占用 的 问题 。 一 个 改进 的 方案 是 可 以 考虑 在 转发 器 上 面部 署 流量 控制 ， 结 合 前 面 说 
的 转发 器 可 能 被 劫持 场景 ， 建 议 在 控制 器 和 转发 器 上 分 别 部 署 流量 限制 来 解决 此 类 流量 
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攻击 问题 。 虽 然 通过 限 流 能 够 缓解 这 种 设计 缺陷 带 来 的 问题 , 但 是 不 推荐 这 种 方案 设计 。 
最 佳 的 方式 是 减少 此 类 设计 ， 因 为 如 果 很 多 协议 按照 此 类 设计 实现 ， 结 果 会 导致 需要 对 
每 个 协议 都 考虑 带宽 限制 ， 比 如 OpenFlow 未 知 流 2Mbits，ARP 占用 2Mbit/s，BGP 占 
用 2Mbit/s。 而 通常 设计 者 会 考虑 一 定 的 收敛 比 ， 设 计 者 不 会 假定 每 个 协议 都 同时 以 
2Mbit/s 的 最 大 带宽 向 控制 器 发 送 报 文 。 比 如 ， 上 面 三 个 协议 同时 使 用 需要 占用 6Mbit/s 
带宽 ,设计 者 进行 收敛 比 设计 后 ， 实 际 产品 的 处 理 能 力 可 能 仅仅 按照 4Mbit/s 带宽 能 力 
进行 设计 。 而 当 攻 击 者 了 解 到 这 个 事实 后 ， 他 会 同时 使 用 这 些 协议 进行 攻击 ， 导 致 实际 
上 没有 收敛 比 。 上 面 例子 攻击 者 会 发 起 6Mbit/s 的 流量 进入 系统 ， 这 样 就 会 对 系统 造成 
巨大 压力 ， 因 此 还 是 最 好 不 要 进行 这 样 的 有 安全 隐患 的 设计 。 而 传统 的 全 基本 上 都 是 预 
路 由 方式 ， 就 是 说 先 有 IP 地 址 路 由 ， 然 后 才 转 发 。 没 有 卫 地 址 路 由 的 报 文 处 理 方式 是 
直接 丢弃 报 文 ， 这 种 设计 就 不 会 把 转发 面 未 知 目 的 IP 报 文 送 交 给 控制 器 ， 因为 送 给 控制 
器 后 ， 控 制 器 也 没有 路 由 ， 如 果 控 制 器 有 这 些 报 文 的 路 由 ， 控 制 器 就 已 经 下 发 给 转发 器 
了 。 了 IP 的 基本 原理 是 通过 控制 面 学 习 路 由 ， 然 后 下 发 路 由 表 数 据 给 转发 面 ， 转 发 面 再 根 
据 这 些 路 由 表 数 据 转发 报 文 。 所 以 应 该 尽量 采用 类 似 后 者 的 设计 ， 降 低 被 攻击 的 概率 。 

上 面 的 方法 基本 可 以 解决 非法 接 入 问题 。 还 有 一 个 要 注意 的 问题 是 ， 不 应 该 把 密 钥 
以 明文 方式 在 网 络 上 传送 , 一 些 网 络 拓扑 数据 、 路 由 数据 等 敏感 信息 也 不 应 该 明文 传送 ， 
在 部 署 协议 的 时 候 应 该 避免 此 类 问题 。 很 多 老 协 议 是 不 安全 的 ,比如 Telnet 本 身 不 安全 ， 
该 协议 采用 明文 传递 密 钥 。 可 以 考虑 采用 SSH 或 者 OVER 到 SSL 上 来 解决 这 些 问题 。 
也 就 是 说 ， 为 了 解决 机 密 性 和 完整 性 问题 ， 还 需要 采用 某 种 形式 的 加 密 ， 无 论 采 用 专门 
的 类 似 IPSec 协议 还 是 采用 SSL 技术 ， 都 可 以 保证 机 密 性 。 控 制 器 和 周边 实体 通信 都 需 
要 采用 一 定 的 保密 措施 ， 以 确保 这 些 报 文 不 会 被 窃听 、 修 改 等 。 

现在 控制 器 对 转发 器 进行 了 认证 ， 并 确保 其 接 入 合法 以 及 流量 受 控 ， 但 还 有 一 个 问 
题 是 ， 如 果 有 人 仿冒 控制 器 ， 对 现 网 转发 器 进行 非法 控制 ， 这 种 情况 一 旦 发 生 ， 相 当 于 
合法 的 转发 器 接 入 了 攻击 者 的 非法 控制 器 。 这 个 转发 器 本 来 属于 另外 一 个 合法 的 控制 器 
所 控制 ， 通 过 这 种 仿冒 控制 器 方式 攻击 ， 这 个 转发 器 将 无 法 提供 正常 服务 。 为 了 解决 这 
个 问题 ， 转 发 器 也 要 对 控制 器 进行 认证 ， 确 保 其 接 入 了 正确 的 控制 器 ， 也 就 是 说 需要 实 
现 双向 认证 机 制 。 这 种 机 制 在 应 用 程序 和 控制 器 之 间 、 转 发 器 和 控制 器 之 间 、 管 理 系 统 
和 控制 器 之 间 都 需要 部 署 双向 身份 认证 。 这 种 攻击 确实 存在 ， 比 如 无 线 网 络 中 的 基站 其 
骗 攻 击 ， 就 是 有 人 通过 自己 的 假 基 站 和 手机 用 户 通信 ， 手 机 用 户 没有 能 力 识别 是 否 是 假 
基站 ， 于 是 接收 到 了 很 多 诈骗 信息 。 此 类 攻击 和 冒充 控制 器 攻击 相似 ， 解 决 方案 也 应 该 
是 双向 身份 认证 。 

综 上 所 述 ，SDN 网 络 体系 的 安全 性 主要 从 几 个 方面 进行 防御 。 从 整 网 角度 上 应 该 部 
署 类 似 大 数据 分 析 的 安全 系统 , 直接 可 以 分 析出 针对 SDN 网 络 的 DDoS 攻击 问题 , 并 通 
过 控制 器 完成 攻击 流量 的 清洗 和 移 除 .而 SDN 控制 器 的 防护 最 重要 的 就 是 只 允许 那些 应 
该 建立 特定 协议 通信 关系 的 实体 以 通过 身份 认证 、 限 定 流量 和 加 密 的 方式 和 控制 器 进行 
通信 ， 并 且 还 需要 控制 器 和 转发 器 之 间 、 控 制 器 和 应 用 程序 之 间 、 控 制 器 和 周边 邻居 之 
间 要 进行 双向 身份 识别 ， 并 注意 做 好 密 钥 管理 工作 。SDN 控制 器 的 防护 建议 是 使 用 防火 
墙 , 通过 防火 墙 隔离 控制 器 和 所 有 外 部 通信 实体 之 间 的 通信 , 同时 SDN 控制 器 需要 在 应 
用 层 部 署 安全 措施 ， 包 括 采 用 SSL 或 者 协议 本 身 的 安全 通信 方式 ， 与 邻居 进行 应 用 层 的 
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安全 处 理 。 


7.5 ”SDN 控制 器 内 部 设计 的 安全 考虑 


上 面 介 绍 了 SDN 网 络 体系 的 安全 和 SDN 控制 器 作为 一 个 整体 的 安全 考虑 ， 下 面 分 
析 SDN 控制 器 本 身 的 安全 问题 。 在 分 析 SDN 控制 器 内 部 问题 时 , 仍然 需 考虑 SDN 控制 
器 的 内 部 有 哪些 实体 ， 针 对 这 些 实体 ， 可 以 进行 哪些 必要 的 安全 防范 。 

SDN 控制 器 是 一 个 分 布 式 集群 系统 , 通常 是 由 一 组 服务 器 通过 一 个 网 络 连接 在 一 起 
的 ， 而 每 个 服务 器 包括 服务 器 硬件 、 服 务 器 内 部 的 虚拟 机 软件 、 操 作 系 统 软 件 、 分 布 式 
中 间 件 和 上 面 的 控制 器 程序 ， 如 图 7-3 所 示 。 












SDN 控制 器 


虚拟 机 





其 他 相关 通信 实体 ， 转 发 器 ， 
图 7-3 ”SDN 控制 器 安全 控制 防御 点 


对 这 些 实体 的 安全 分 析 ， 采 用 逐 层 自 底 向 上 的 方式 ， 因 为 越 是 底层 被 攻击 ， 上 层 就 
越 没 有 安全 可 言 了 。 当 然 ， 底 层 安全 问题 的 应 对 有 时 可 以 在 上 层 解 决 。 


7.5.1 物理 安全 


从 物理 实体 角度 上 看 , 控制 器 运行 在 一 组 服务 器 上 , 这 些 服务 器 可 以 是 物理 服务 器 ， 
也 有 各 种 云 化 思路 希望 所 有 应 用 程序 都 运行 在 虚拟 机 上 面 。 控 制 器 软件 既 可 以 直接 运行 
在 物理 服务 器 上 也 可 以 运行 在 虚拟 机 上 面 。 不 过 ， 出 于 安全 考虑 ， 不 建议 采用 虚拟 机 部 
署 。 尽 管 虚拟 机 带 来 了 很 多 灵活 性 ， 但 是 也 带 来 很 多 安全 问题 。 是 否 要 采用 虚拟 机 来 部 
署 ， 需 要 三家 仔细 权衡 风险 。 如 果 基 于 专用 的 独占 的 物理 服务 器 ， 可 以 对 这 个 物理 服务 
器 内 的 操作 系统 直接 进行 加 固 ， 提 供 安全 操作 系统 。 这 种 安全 操作 系统 比 通用 的 普通 操 
作 系 统 更 加 坚固 ， 更 加 难以 攻破 。 如 果 采 用 虚拟 机 ， 主 要 有 几 个 问题 。 其 中 一 个 问题 是 ， 
虚拟 机 系统 会 把 一 台 物 理 服务 器 虚拟 化 成 多 台 虚 拟 机 ， 被 动态 分 配给 不 同 用 户 。 如 果 这 
个 物理 服务 器 的 一 个 虚拟 机 分 配给 了 控制 器 ， 另 外 一 个 分 配给 了 某 个 特定 的 用 户 。 这 个 


安全 控制 防御 点 
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用 户 自己 如 何 使 用 这 台 虚 拟 机 ， 我 们 并 不 清楚 。 如 果 他 利用 自己 的 虚拟 机 反 向 攻克 底层 
虚拟 机 软件 系统 ， 那 么 分 配给 控制 器 的 那 台 虚拟 机 基本 上 就 完全 暴露 在 攻击 之 下 ; 或 者 
这 个 用 户 本 身 要 占用 更 多 没有 被 充分 隔离 的 物理 资源 进行 特定 的 业务 ， 也 可 能 会 导致 占 
用 了 控制 器 的 虚拟 机 资源 。 尽 管理 论 上 可 以 把 虚拟 机 资源 进行 严格 划分 ， 但 毕竟 是 一 台 
物理 服务 器 ， 总 有 共享 资源 ， 就 会 存在 安全 漏洞 。 所 以 如 果 考 虑 安全 问题 ， 建 议 不 要 使 
用 虚拟 机 来 部 署 控制 器 。 如 果 一 定 需要 的 话 , 那么 需要 给 出 针对 虚拟 机 攻击 的 防护 问题 ， 
以 确保 虚拟 机 的 安全 ， 并 且 不 应 该 把 控制 器 所 使 用 的 虚拟 机 与 其 他 用 户 分 享 ， 即 使 使 用 
虚拟 机 技术 也 应 该 考虑 控制 器 虚拟 机 独占 物理 设备 ， 意 思 是 说 所 有 的 该 物理 服务 器 的 虚 
拟 机 都 应 该 分 配给 SDN 控制 器 使 用 。 

同样 还 有 物理 问题 的 是 ， 用 于 这 些 服务 器 之 间 交 换 数据 的 交换 网 络 ， 由 于 这 些 控制 
器 集群 服务 器 之 间 通 信和 需要 占用 一 定 的 带宽 ， 其 通信 数据 是 控制 器 的 内 部 数据 ， 这 时 交 
换 网 络 最 好 能 够 物理 隔离 ， 就 是 说 独占 一 个 网 络 ， 至 少 也 需要 考虑 独占 一 个 VLAN。 通 
过 VLAN 虚拟 网 络 进行 隔离 ,以 避免 控制 器 的 服务 器 之 间 的 通信 通道 和 普通 用 户 数据 报 
文 没 有 任何 隔离 保护 措施 ， 导 致 各 种 安全 漏洞 。 如 果 这 些 服务 器 同时 还 是 跨 机 房 部 署 或 
者 跨 地 域 部 署 ， 那 么 还 需要 考虑 如 何 解 决 泄密 问题 ， 需 要 考虑 在 交换 网 络 上 对 交换 的 数 
据 进行 加 密 ， 以 防止 数据 被 窍 听 、 修 改 等 机 密 性 问题 和 完整 性 问题 。 


7.5.2 ”操作 系统 安全 问题 


操作 系统 也 是 一 个 软件 , 它 管理 着 服务 器 的 所 有 资源 ,， 包括 所 有 的 硬件 资源 (CPU、 
内 存 、 外 设 等 )、 操 作 系 统 资源 (进程 、 线 程 、 文 件 、IPC 等 )。 如 果 操 作 系 统 不 安全 ， 
运行 在 上 面 的 软件 就 没有 安全 可 言 。 操 作 系 统 负 责 的 主要 实体 包括 系统 硬件 和 驱动 、 系 
统 文件 、 系 统 内 存 、 进 程 和 线程 、 其 他 系统 外 设 、 通 信 管 理 等 。 首 先 ， 操 作 系统 这 一 层 
的 安全 是 必须 仔细 考虑 的 。 每 年 像 微 软 这 样 的 公司 都 会 发 布 大 量 的 操作 系统 补丁 。 从 十 
几 年 前 的 Windows 95 到 当今 的 Windows 10， 版 本 虽 不 同 ， 但 是 相同 的 是 每 年 都 有 很 多 
系统 补丁 。 这 些 补丁 很 多 都 是 为 了 解决 安全 漏洞 问题 。 这 些 操作 系统 尽管 多 年 积累 ， 仍 
然 无 法 保证 没有 安全 漏洞 ， 无 论 Linux 还 是 Windows， 存 在 安全 漏洞 几乎 是 肯定 的 。 因 
此 ， 应 该 考虑 如 何 使 得 这 样 一 个 有 安全 漏洞 的 系统 更 加 安全 ， 需 要 厂家 能 够 提供 加 固 的 
安全 操作 系统 。 这 样 的 操作 系统 是 获取 了 最 新 版 本 系统 ， 很 多 已 知 缺 陷 应 该 被 修正 。 男 
外 ， 要 注意 从 以 下 几 个 方面 来 加 强 。 第 一 , 操作 系统 所 有 的 默认 通信 服务 都 应 该 被 关闭 ， 
就 是 说 这 个 操作 系统 对 外 不 提供 任何 通信 服务 ， 关 闭 FTP、Telnet、HTTP 等 服务 ， 用 户 
操作 只 能 通过 近 端 控制 台 进 行 ， 这 是 最 强 的 安全 措施 ， 这 样 能 够 保证 通信 的 安全 。 如 果 
无 法 做 到 关闭 所 有 通信 服务 ， 那 么 当 要 打开 一 个 通信 服务 时 ， 应 同时 部 署 安全 措施 ， 比 
如 认证 和 加 密 措 施 ， 以 及 白 名 单 措施 ， 使 得 只 能 有 特定 的 机 器 以 特定 的 协议 和 加 密 方式 
进行 。 第 二 ， 操 作 系 统 的 各 种 ROOT 权限 应 该 进行 分 级 隔离 和 授权 ， 比 如 特定 的 操作 权 
限 只 能 由 特定 的 程序 或 者 用 户 操 作 ， 比 如 创建 进程 权限 ， 或 者 修改 系统 配置 权限 、 文 件 
系统 操作 权限 等 ， 都 需要 进行 控制 。 在 控制 器 场景 下 ， 这 些 权限 应 该 仅仅 授予 控制 器 程 
序 ， 其 他 任何 程序 都 不 允许 进行 进程 创建 、 文 件 修 改 等 权限 ， 这 样 可 以 保护 系统 资源 不 
被 非法 利用 。 第 三 ， 建 议 操作 系统 也 由 控制 器 厂家 提供 ， 和 控制 器 应 用 程序 一 起 发 布 ， 
这 样 不 仅 可 以 保证 没有 兼容 性 问题 ， 也 能 保证 系统 的 安全 。 当 然 进一步 的 安全 考虑 是 ， 
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连同 服务 器 硬件 、 软 件 作 为 整体 产品 购买 ， 这 样 在 安全 方面 更 加 有 保障 一 些 。 当 然 这 不 
是 必须 的 ， 仅 仅 从 安全 方面 考虑 建议 如 此 。 


7.5.3 ”分 布 式 中 间 件 和 应 用 层 软 件 安全 措施 


由 于 SDN 控制 器 是 一 个 分 布 式 软件 系统 ， 需 要 一 个 分 布 式 中 间 件 〈 分 布 式 操作 系 
统 ) 提供 分 布 式 服务 ， 它 的 层次 位 于 操作 系统 的 上 层 。 这 个 分 布 式 中 间 件 提供 了 基本 的 
软件 管理 、 部 署 管 理 、 配 置 管理 、 服 务 编 址 和 寻 址 、 通 信 管理 、 调 度 、HA 等 服务 。 分 
布 式 中 间 件 负责 管理 的 实体 包括 集群 服务 器 、 应 用 程序 组 件 、 应 用 程序 数据 、 自 身 数据 
等 。 有 的 分 布 式 中 间 件 设计 也 会 负责 管理 操作 系统 相关 对 象 ， 比 如 文件 、 进 程 、 内 存 等 ， 
这 些 实体 需要 进行 一 定 的 安全 设计 。 

第 一 ， 需 要 进行 集群 系统 的 成 员 身份 管理 。 当 有 服务 器 宣称 自己 属于 集群 一 部 分 ， 
并 要 求 加 入 集群 时 ， 分 布 式 中 间 件 必须 对 其 进行 认证 ， 以 确保 其 合法 身份 。 如 果 不 进 行 
类 似 的 认证 ， 就 存在 冒充 集群 成 员 加 入 系统 的 可 能 ， 通 过 冒充 系统 成 员 ， 获 得 系统 相关 
信息 ， 从 而 发 起 攻击 。 

第 二 ， 分 布 式 中 间 件 还 必须 对 自己 管理 的 实体 进行 安全 性 处 理 。 比 如 ， 分 布 式 中 间 
件 管理 系统 的 组 件 、 管 理 系统 的 配置 数据 等 ， 这 些 实体 的 完整 性 是 由 分 布 式 中 间 件 负责 
管理 的 ， 分 布 式 中 间 件 有 能 力 识别 非法 的 组 件 或 者 不 一 致 的 错误 的 配置 数据 。 分 布 式 中 
间 件 提供 的 配置 管理 服务 必须 具有 足够 的 数据 完整 性 校 验 能 力 ， 以 保证 系统 不 会 因为 管 
理 员 的 误 操 作 而 带 来 系统 失效 。 配 置 管理 的 另外 一 个 功能 是 要 保证 系统 的 数据 一 致 性 。 
当 对 单个 数据 进行 合法 性 校 验 时 ， 系 统 并 不 复杂 ， 也 不 需要 复杂 的 机 制 ， 就 可 以 解决 单 
个 数据 校 验 。 但 是 当 系统 中 的 配置 对 象 有 大 量 复杂 的 依赖 关系 时 ， 就 需要 配置 管理 系统 
能 够 具备 面向 对 象 的 建 模 能 力 ， 并 对 对 象 之 间 的 关系 通过 模型 描述 。 然 后 整个 配置 管理 
系统 能 够 依据 这 些 关系 对 输入 的 数据 进行 完整 性 和 一 致 性 校 验 ， 确 保 用 户 配置 数据 的 一 
致 和 完整 。 

第 三 ， 系 统 分 布 式 中 间 件 还 必须 提供 系统 的 HA 机 制 ， 以 使 得 系统 获得 更 高 的 可 用 
性 。 可 用 性 不 高 的 系统 无 论 如何 也 不 是 一 个 安全 的 系统 。 分 布 式 系统 需要 对 系统 各 个 部 
件 进 行 监控 ， 当 有 部 件 失效 时 ， 系 统 中 间 件 必须 选择 合适 的 替代 部 件 接 蔡 工 作 ， 此 类 机 
制 在 第 4 章 “SDN 网 络 可 靠 性 ”中 已 经 描述 了 。 分 布 式 中 间 件 的 通信 服务 部 分 ， 如 果 集 
群 系统 跨 地 域 分 布 ， 还 必须 提供 安全 通信 通道 ， 以 确保 这 些 跨 地 域 通信 的 安全 。 如 果 需 
要 ， 本 地 的 集群 内 部 之 间 通 信也 可 以 考虑 部 署 安全 通信 通道 ， 通 过 加 密 、 增 加 摘要 等 方 
法 确保 通信 机 密 性 和 完整 性 。 分 布 式 中 间 件 系统 提供 的 通信 服务 还 包括 SOCKET 通信 服 
务 ， 为 了 安全 ， 需 要 提供 SSL 功能 ， 以 便 为 上 层 控制 器 应 用 程序 提供 安全 的 SOCKET 
通信 服务 。 总 之 ， 一 个 安全 的 分 布 式 中 间 件 设计 要 考虑 很 多 问题 ， 需 要 对 它 所 有 管理 的 
对 象 进行 仔细 分 析 ， 进 行 适 当 的 权限 管理 、 数 据 完整 性 和 一 致 性 管理 。 

应 用 层 软 件 是 运行 在 分 布 式 中 间 件 上 层 的 应 用 程序 软件 。 在 SDN 控制 器 里 ， 这 个 
应 用 软件 就 是 SDN 控制 器 程序 , 包括 网 络 操作 系统 和 网 络 业务 应 用 程序 两 个 部 分 。 应 用 
层 更 多 的 是 需要 考虑 应 用 层 和 外 部 建立 的 通信 协议 的 安全 ， 有 关 通 信 协 议 的 安全 问题 现 
在 标准 化 组 织 IETF 已 经 有 了 足够 的 认识 。 目 前 最 新 版 本 的 各 种 协议 通常 都 会 增加 安全 
措施 ， 包 括 提 供 完整 性 校 验 机 制 或 者 加 密 措施 等 ， 但 是 也 有 一 些 传统 协议 比较 老 的 版 本 
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是 不 安全 的 ， 不 过 目前 这 些 不 安全 的 协议 也 都 发 布 了 安全 的 升级 版 本 。 比 如 Telnet 不 安 
全 ， 现 在 SSH 则 是 安全 的 ， 所 以 通常 不 再 建议 使 用 Telnet， 控 制 器 默认 也 不 应 该 提供 该 
服务 。 而 SNMPv1 和 v2 版 本 不 安全 ， 已 经 有 了 SNMPv3 版 本 支持 安全 特性 。 控 制 器 协 
议 层 面 需要 实现 最 新 的 安全 特性 ， 同 时 需要 产品 发 布 时 默认 关闭 那些 不 安全 的 协议 ， 以 
避免 受到 攻击 和 误 用 。 另 外 ， 在 应 用 层 设计 时 也 需要 考虑 其 他 资源 消耗 问题 ， 一 个 应 用 
程序 到 底 能 够 处 理 多 少 连接 、 多 少 路 由 、 多 少 报 文 ， 需 要 根据 正常 工作 流程 分 析 ， 给 出 
一 个 明确 的 规格 ， 内 部 对 这 些 规格 进行 一 定 限 制 ， 以 确保 这 些 应 用 程序 不 能 因为 邻居 的 
恶意 攻击 而 过 多 消耗 系统 资源 ， 从 而 造成 流量 攻击 。 

在 软件 层面 ， 无 论 是 分 布 式 中 间 件 还 是 控制 器 应 用 程序 软件 ， 为 了 避免 一 些 漏洞 被 
利用 ， 比 如 栈 溢出 漏洞 ， 通 常 发 行 的 软件 需要 在 运行 时 进行 代码 段 和 数据 段 的 保护 ， 使 
得 系统 即使 有 此 类 漏洞 ， 也 由 于 已 经 对 代码 段 和 数据 段 进 行 了 有 效 的 保护 ， 使 得 攻击 者 
无 法 植 入 恶意 代码 。 这 通常 需要 供应 商 交 付 的 软件 具有 这 种 能 力 。 


7.6 ”SDN 的 其 他 安全 措施 建议 


安全 问题 中 的 完整 性 问题 还 包括 三 家 发 行 的 软件 包 的 完整 性 保证 。 三 家 需要 对 自己 
提供 的 发 行 包 提供 完整 性 机 制 ， 比 如 可 以 在 软件 包 中 增加 摘要 信息 ， 以 避免 软件 包 被 亚 
意 修改 。 仅 仅 增 加 摘要 信息 可 能 还 不 够 ， 进 一 步 的 完整 性 保证 可 能 需要 对 摘要 信息 进行 
数字 签名 技术 ， 进 一 步 加 强 软件 包 的 安全 性 。 如 果 希 望 软件 发 行 过 程 中 不 被 反 编译 和 分 
析 ， 则 可 以 采用 对 整个 软件 包 加 密 的 方法 ， 在 运行 时 再 解密 处 理 ， 这 些 都 能 够 保证 大 包 
的 完整 性 。 

在 安全 处 理 过 程 中 ， 一 旦 发 生 安全 事件 ， 希 望 能 够 找 出 攻击 方式 和 攻击 来 源 ， 以 避 
免 再 一 次 攻击 的 发 生 。 通 常 需 要 根据 入 侵 时 留 下 的 蛛丝马迹 进行 追踪 和 回 湖 ， 那 么 就 需 
要 系统 能 够 记录 各 种 安全 相关 的 异常 事件 。 控 制 器 系统 本 身 会 记录 大 量 日 志 ， 其 中 一 个 
安全 日 志 是 非常 重要 的 ， 它 本 身 类 似 控 制 器 系统 的 黑匣子 ， 被 设计 成 具有 最 高 级 别 权 限 
才能 访问 。 理 想 的 黑匣子 应 该 设计 成 生命 周期 内 其 内 部 数据 不 应 该 被 人 为 地 修改 或 者 删 
除 ， 其 中 记录 着 系统 所 有 的 操作 记录 、 所 有 的 重要 有 异常 记录 。 通 过 这 些 记录 可 以 如 实 反 
映 系统 的 真实 运行 情况 ， 并 据 此 分 析 是 否 存在 安全 问题 。 如 果 可 以 人 为 修改 ， 那 么 这 个 
黑匣子 数据 可 能 就 不 可 靠 了 ， 比 如 有 人 进行 破坏 活动 ， 然 后 清除 了 记录 ， 这 就 没有 办 法 
知道 谁 进行 这 次 攻击 。 所 以 定期 的 安全 审计 ， 对 安全 日 志 进 行 分 析 ， 有 助 于 识别 系统 的 
安全 问题 。 

在 如 何 保证 系统 安全 问题 上 ， 不 仅仅 是 设备 供应 商 要 提供 足够 的 安全 技术 ， 用 户 也 
需要 对 安全 问题 给 予 足够 的 重视 。 因 为 整个 安全 体系 中 ， 用 户 是 否 对 各 种 安全 威胁 有 所 
了 解 ， 是 否 熟 知 安全 应 对 技术 ， 并 做 合理 的 部 署 非 常 重要 。 用 户 通常 要 制定 系统 安全 策 
略 ， 部 署 多 层 防 护 体 系 ， 并 对 系统 定期 进行 审计 ， 发 现 有 任何 安全 相关 的 异常 发 生 。 比 
如 用 户 需 要 考虑 在 SDN 网 络 体系 部 署 DoS 攻击 分 析 和 防御 体系 ， 需 要 为 控制 器 配置 防 
火 墙 隔离 ， 需 要 对 周边 通信 实体 部 署 安全 协议 ， 这 样 才能 很 好 地 保证 系统 安全 。 

另外 ， 安 全 问题 是 一 个 攻击 与 防御 的 关系 ， 攻 击 者 攻击 手段 不 断 变化 ， 相 应 的 防御 
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手段 也 需要 不 断 地 在 实战 中 提升 。 过 去 的 安全 技术 今天 可 能 已 经 不 安全 了 ,比如 DES 加 
密 的 64 位 加 密 已 经 不 再 安全 , 已 经 存在 技术 很 容易 解密 64 位 DES 加 密 数据 , 现在 需要 
部 署 128 位 加 密 才 可 以 。 今 天 的 安全 技术 并 不 代表 明天 也 安全 。 会 不 断 有 新 的 安全 威胁 
出 现 ， 而 供应 商 和 用 户 必须 一 起 面 对 这 些 新 的 安全 威胁 ， 设 计 安 全 技术 来 进行 防御 ， 所 
以 安全 问题 也 是 在 实践 中 不 断 进行 经 验 积 累 、 不 断 成 长 的 过 程 。 


【本 章 小 结 】 


本 章 从 安全 角度 分 析 了 SDN 网 络 架构 下 的 SDN 网 络 各 个 实体 的 安全 威胁 ， 建 议 可 
以 考虑 部 署 整 网 的 安全 分 析 系 统 ， 和 SDN 控制 器 一 起 形成 最 外 围 防御 手段 ， 对 SDN 控 
制 器 实体 也 进行 了 安全 威胁 和 防御 措施 分 析 。SDN 控制 器 的 安全 措施 包括 部 署 防火 墙 隔 
离 以 及 物理 隔离 措施 ， 针 对 周边 通信 实体 进行 通信 源 确认 、 身 份 认 证 、 流 量 限制 等 手段 
进行 防护 。 进 而 对 SDN 控制 器 内 部 进行 了 一 定 的 安全 问题 和 防御 措施 分 析 , 包括 采用 安 
全 加 固 的 安全 操作 系统 , 到 分 布 式 中 间 件 需要 提供 安全 措施 , 到 应 用 层 的 协议 安全 措施 。 

随后 我 们 介绍 了 SDN 控制 器 的 其 他 一 些 安全 措施 ， 比 如 代码 段 只 读 、 安 全 日 志 、 
安全 审计 等 措施 , 并 且 介绍 了 为 了 确保 SDN 网 络 安全 , 网 络 运 维 人 员 需 要 进行 安全 策略 
制定 ， 分 析 安 全 威胁 ， 做 好 安全 技术 部 署 。 

通过 本 章 介绍 的 各 种 安全 技术 可 以 建立 一 套 完整 的 SDN 网 络 多 层 御 体系 : 从 整 网 
的 DoS，DDoS 攻击 防御 、 控 制 器 级 别 的 防御 、 控 制 器 内 部 操作 系统 、 分 布 式 中 间 件 应 
用 程序 等 层面 进行 多 层 防 御 ， 这 样 可 以 有 效 的 保护 SDN 控制 器 安全 ， 使 得 SDN 网 络 架 
构 不 至 于 因为 安全 问题 而 无 法 部 署 。 
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SDN 网 络 架 构 是 对 传统 网 络 的 一 次 重 构 。 这 次 重 构 面 临 的 已 经 是 全 球 海量 商用 部 署 
的 分 布 式 控制 网 络 ， 这 些 网 络 已 经 在 现 网 运行 并 提供 业务 ， 我 们 不 可 能 一 夜 之 间 把 现 网 
全 部 升级 为 SDN 网 络 ， 那 么 到 底 如 何 逐 步 地 从 现 网 迁移 到 SDN 网 络 架 构 呢 ? 本 章 介绍 
一 些 可 能 的 方案 。 

首先 ， 应 该 考虑 在 某 些 局 部 网 络 开始 部 署 SDN 网 络 ， 这 些 局 部 部 署 的 SDN 网 络 可 
能 是 新 建立 的 网 络 , 也 可 能 是 存量 网 络 ; 然后 当 SDN 技术 逐渐 成 熟 , 会 部 署 更 多 的 SDN 
网 络 ， 最 终 完成 全 部 存量 网 络 向 SDN 网 络 的 迁移 。 在 逐渐 部 署 SDN 网 络 的 过 程 中 ， 
为 了 保证 现 网 能 够 顺利 过 渡 到 SDN 网 络 ， 主 要 办 法 是 采用 混合 组 网 方式 来 逐渐 部 署 
SDN， 解 决 一 些 现实 的 问题 。 在 这 种 渐进 的 部 署 过 程 中 ， 也 在 逐渐 验证 SDN 网 络 架 
构 的 可 行 性 , 以 及 厂家 提供 SDN 控制 器 的 各 方面 质量 属性 是 否 达到 大 规模 商用 要 求 ， 
同时 要 考虑 不 能 影响 现 网 业务 。 

一 个 存量 网 络 升 级 到 SDN 网 络 的 正常 方法 可 以 是 在 保持 现 网 所 有 业务 不 动 的 情况 
下 ， 逐 渐 地 向 网 络 中 部 署 SDN， 基 本 的 几 个 步骤 如 下 。 

第 一 步 ， 向 存量 网 络 中 部 署 SDN 控制 器 ， 并 把 SDN 控制 器 和 转发 器 之 间 的 连接 关 
系 建立 起 来 , 开始 可 能 是 仅仅 使 用 这 个 SDN 控制 器 进行 一 些 网 络 观察 ， 比 如 观察 网 络 拓 
扑 、 观 察 网 络 状态 数据 。 

第 二 步 : 试 着 让 SDN 控制 器 发 挥 一些 作 用 ， 比 如 可 以 做 一 些 试验 性 业务 ， 由 SDN 
控制 器 部 署 和 管控 这 些 业 务 ， 而 保留 所 有 现 网 业务 ， 这 样 可 以 观察 这 些 试验 性 业务 对 网 
络 的 影响 ， 积 累 网 络 运行 维护 经 验 ， 验 证 SDN 的 可 行 性 。 

第 三 步 : 如 果 试 验 性 业务 运行 一 段 时 间 后 发 现 没 有 问题 ， 可 以 考虑 部 署 一 些 商 用 业 
务 ， 此 时 仍然 保持 原来 的 网 络 业务 在 传统 分 布 式 网 络 上 运行 ， 但 是 已 经 有 一 些 商 用 业务 
实例 归属 控制 器 管控 。 

第 四 步 : 当 这 些 商 用 业务 使 用 成 熟 后 ， 可 以 考虑 逐渐 地 把 现 网 的 分 布 式 业 务实 例 迁 移 到 
SDN 控制 器 上 面 ， 最 后 可 以 全 部 迁移 到 控制 器 。 这 样 就 完成 了 现 网 业务 到 SDN 网 络 的 迁移 。 

整个 迁移 过 程 大 致 如 图 8-1 所 示 。 


部 署 控制 器 控制 器 部 署 控制 器 部 署 控制 器 部 署 商 





图 8-1 传统 IP 网 络 向 SDN 网 络 迁移 步 又 


当然 ， 还 存在 另外 一 种 形式 的 迁移 ， 称 为 断代 迁移 。 运 营 商 可 以 在 一 些 领域 直接 新 
建 一 个 网 络 ， 这 个 网 络 可 以 直接 采用 SDN 架构 ， 这 张 网 络 可 以 是 完全 独立 的 ， 提 供 独立 
的 业务 ， 比 如 提供 一 些 专线 等 服务 。 这 种 提供 专线 服务 的 网 络 可 能 就 是 一 个 孤岛 网 络 ， 
完全 不 需要 和 其 他 网 络 打交道 。 这 种 网 络 很 简单 ， 也 不 需要 和 其 他 网 络 进行 互通 ， 只 是 
对 外 提供 专线 业务 。 一 个 例子 如 图 8-2 所 示 。 
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图 8-2 ”新 建 孤岛 SDN 网 络 示 意图 


这 种 情况 下 ， 新 建 网 络 是 一 张 独立 的 SDN 网 络 ， 一 般 不 需要 和 现 网 进行 对 接 和 互 
通 。 但 是 这 种 网 络 仍然 面临 一 个 问题 ， 如 果 接 入 业务 非常 复杂 ， 比 如 不 是 专线 业务 ， 而 
是 一 些 类 似 传统 的 L3VPN 业务 ， 那 么 问题 就 复杂 了 ， 此 时 就 存在 控制 器 要 实现 传统 接 
入 协议 和 传统 网 络 进行 协议 对 接 的 问题 , 需要 考虑 如 何 使 SDN 网 络 和 现 有 网 络 进行 协议 
互通 。 这 种 孤岛 SDN 网 络 和 传统 网 络 互通 是 演进 方案 必须 要 考虑 的 需求 ，SDN 需要 考 
虑 如 何 解 决 此 类 问题 ， 才 能 支持 这 种 场景 。 

下 面 针 对 运营 商 到 底 如 何 部 署 SDN 网 络 给 出 各 种 可 能 的 部 署 和 迁移 路 径 。 如 同 
我 们 介绍 的 ， 要 做 好 迁移 ， 通 常 要 有 一 个 分 布 式 控制 面 和 集中 的 SDN 控制 器 并 行 
运行 在 同一 张 网 络 上 的 过 程 ， 也 就 是 需要 网 络 能 够 支持 SDN 控制 器 和 传统 分 布 式 
网 络 的 hybrid 混合 控制 ， 这 是 在 控制 器 设计 过 程 中 必须 充分 考虑 的 问题 。 基 本 迁移 
方案 包括 : 

Q@ 按 业 务实 例 混合 组 网 (Service instance based hybrid)。 某 些 业 务实 例 由 控制 器 集 
中 控制 ， 其 他 业务 实例 由 传统 网 络 控制 。 

@ 按 业 务 混合 组 网 (Service based hybrid)。 某 种 业务 由 控制 器 集中 控制 ， 其 他 业务 
由 传统 网 络 控制 。 

@) 按 网 络 设备 混合 组 网 (Device based hybrid)。 某 些 域内 部 分 设备 由 控制 器 集中 控 
制 ， 域 内 其 他 设备 仍然 运行 传统 分 布 式 控 制 协议 。 

@ 按 自治 系统 混合 组 网 (AS based hybrid)。 某 些 自治 系统 由 控制 器 集中 控制 ， 周 
边 其 他 自治 系统 是 传统 分 布 式 控制 网 络 。 

@@ MPLS 网 络 和 Native IP 网 络 向 SDN 网 络 演进 方案 。 这 里 会 介绍 PCE+ 和 RR+ 如 
何 解决 现 网 MPLS 网 络 和 纯 IP 网 络 向 SDN 演进 的 问题 。 

@ 按 网 络 分 层 混 合 组 网 (Network based hybrid)。 是 按 虚拟 网 络 进行 控制 ， 包 括 数 
据 中 心虚 拟 网 络 ，WAN 网 络 的 iVPN 技术 、SFC 业务 链 四 层 网 络 技术 ， 仅 仅 针对 这 些 虚 
拟 网 络 进行 SDN 控制 ， 基 础 物理 网 络 仍 然 采用 传统 分 布 式 控制 。 

@) SDN 跨 域 解决 方案 。 除了 考虑 上 述 SDN 网 络 的 部 署 演进 过 程 外 , 还 要 考虑 一 
个 未 来 SDN 如 何 解决 多 域 控制 问题 。 当 我 们 解决 了 一 个 单 域 的 SDN 网 络 部 署 问题 后 ， 
最 终 需 要 解决 多 域 网 络 如 何 实现 SDN。 从 这 个 角度 上 看 跨 域 解决 方案 也 算是 现 网 问 
SDN 网 络 迁移 的 一 个 环节 ， 最 终 如 果 多 域 网 络 都 采用 了 SDN 网 络 架构 ， 最 终 可 以 形 
成 一 个 运营 商 可 能 在 其 整个 网 络 就 采用 一 套 SDN 控制 器 实现 全 网 的 整体 管控 , 这 套 
控制 器 内 部 可 能 是 由 一 组 控制 器 构成 ， 罗 辑 上 是 一 台 控制 器 ， 物 理 部 署 上 分 层 分 域 
部 署 。 

下 面 分 别 介 绍 以 上 各 种 迁移 方法 。 
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8.1 按 业 务实 例 混合 组 网 


这 种 情况 是 指 ， 在 一 个 存量 网 络 上 部 署 SDN 控制 器 ， 并 且 让 SDN 控制 器 完成 某 个 特定 
业务 的 一 些 业 务实 例 的 控制 ， 而 该 业务 的 其 他 的 业务 实例 仍然 保持 传统 的 分 布 式 控制 网 络 进 
行 控 制 。 这 是 一 种 最 基本 的 Hybrid 迁移 模式 。 下 面 以 L3VPN 为 例 说 明 ， 如 图 8-3 所 示 。 
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图 8-3 L3VPN Hybrid 部 署 方 案 


某 个 存量 网 络 中 原来 部 署 了 10 个 VPN 实例 ， 现 在 希望 检验 SDN 控制 器 管控 VPN 
的 能 力 。 于 是 可 以 在 网 络 部 署 一 个 控制 器 ， 并 通过 控制 器 部 署 一 些 L3VPN 实例 。 比 如 
希望 控制 器 控制 10 个 新 创建 的 L3VPN 业务 实例 。 这 样 做 ， 未 来 可 以 在 只 修改 控制 器 软 
件 ， 而 不 用 修改 任何 PE (Provide Edge， 运 营 商 网 络 接 入 业务 的 路 由 器 ) 软件 的 情况 下 ， 
完成 对 控制 器 所 控制 的 VPN 业务 的 调整 。 比 如 ， 这 些 VPN 网 络 内 部 的 交换 路 径 根据 策 
略 进行 调整 , 或 者 根据 VPN 接 入 业务 路 由 的 选 路 规则 调整 。 而 分 布 式 控制 面 控制 的 VPN 
如 果 要 实现 同样 的 调整 ， 就 必须 修改 转发 器 软件 ， 通 常 由 于 接 入 业务 PE 是 多 厂家 的 ， 
所 以 还 需要 一 个 定义 标准 并 互通 的 过 程 , 整体 就 比较 漫长 。 这 种 对 比 体现 了 SDN 网 络 架 
构 的 价值 , 很 多 业务 调整 可 以 通过 修改 SDN 控制 器 软件 来 完成 。 一旦 控制 器 可 以 成 功 管 
控 10 个 VPN， 并 且 能 够 很 好 地 运行 ， 经 过 一 段 时 间 ， 就 可 以 考虑 把 其 他 部 署 在 分 布 式 
控制 面 上 的 10 个 VPN 实例 也 逐步 地 迁移 到 控制 器 上 ， 这 样 最 终 完成 所 有 业务 实例 向 
SDN 网 络 迁 移 的 工作 ， 然 后 就 可 以 去 掉 下 面 的 分 布 式 控制 面 的 各 种 协议 ， 从 而 简化 网 络 。 

在 并 行 控制 过 程 中 , 两 个 控制 面 之 间 存 在 一 些 资源 冲突 问题 。 其 中 典型 的 资源 冲突 ， 
比如 控制 器 创建 的 VPN 名 字 和 ID， 与 分 布 式 控制 面 上 已 经 存在 的 VPN 名 字 和 ID 的 冲 
突 问题 。 也 有 类 似 标签 资源 的 冲突 ,因为 控制 器 为 了 业务 处 理 需 要 为 VPN 的 路 由 分 配 标 
签 ， 分 布 式 控制 面 也 同样 需要 分 配 标签 ， 但 是 标签 空间 是 一 个 整体 空间 ， 各 自 独 立 分 配 
肯定 会 冲突 。 这 些 资源 冲突 问题 必须 得 到 解决 。 有 几 种 实现 方法 可 以 解决 这 个 问题 。 一 
种 方法 是 ， 可 以 通过 资源 分 段 方式 ， 因 为 这 些 资源 本 质 上 是 转发 器 自己 的 资源 ， 所 以 转 
发 器 是 该 资源 的 分 配 中 心 , 转发 器 可 以 通过 配置 , 把 部 分 资源 分 配给 分 布 式 控制 面 使 用 ， 
把 部 分 分 配给 控制 器 使 用 。 但 是 这 种 方式 不 够 灵活 ， 比 如 控制 器 所 需 的 资源 不 够 用 ， 而 
分 布 式 控制 面 所 用 资源 还 有 剩余 时 , 而 且 这 些 资 源 在 实际 使 用 过 程 中 又 不 是 连续 地 分 配 ， 
很 难 简单 划 出 新 的 分 段 进行 分 配 ， 导 致 有 资源 剩余 也 无 法 分 配给 另外 一 方 使 用 的 情况 ， 
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总 体 资 源 利 用 效率 低 ， 调 整 困 难 。 另 外 一 个 方法 是 ， 可 以 考虑 这 个 资源 统一 由 转发 器 分 配 ， 
就 是 说 控制 器 需要 资源 的 时 候 向 转发 器 申请 , 转发 器 有 一 个 中 心 资源 管理 组 件 , 无 论 分 布 式 
控制 面 还 是 控制 器 都 从 这 里 分 配 资源 , 这 样 就 解决 了 资源 冲突 问题 。 但 是 如 果 这 种 资源 申请 
非常 频繁 , 控制 器 不 断 向 转发 器 申请 资源 , 会 导致 性 能 不 好 ， 一 个 有 效 的 解决 方案 是 控制 器 
可 以 一 次 申请 一 个 资源 块 ， 这 样 可 以 有 效 提升 性 能 。 

资源 冲突 主要 分 为 两 类 。 一 类 资源 属于 协议 资源 ， 比 如 标签 资源 。 标 签 资 源 是 由 一 
个 转发 器 分 配给 另外 一 个 转发 器 的 协议 资源 ， 在 报 文 从 一 台 转 发 器 转发 给 另外 一 台 转 发 
器 时 ， 报 文 会 携带 这 个 标签 ， 此 类 资源 问题 只 能 采用 上 面 方法 来 解决 。 另 外 一 类 资源 属 
于 一 台 转 发 器 本 地 资源 ， 比 如 VRF ID、 接 口 ID、 隧 道 ID 等 ， 这 些 资源 不 是 协议 资源 ， 
也 不 需要 其 他 转发 器 感知 。 此 类 资源 冲突 问题 还 有 一 个 解决 方法 ， 就 是 使 用 两 个 资源 空 
间 , 然后 进行 虚实 映射 ， 转发 器 最 终 使 用 的 是 本 地 的 实 空间 , 而 控制 器 使 用 的 是 虚空 间 ， 
在 转发 器 建立 虚实 映射 表 ， 控 制 器 下 发 表 项 中 的 资源 ID 在 转发 器 进行 一 次 虚实 转换 。 
这 种 解决 本 地 资源 冲突 的 方法 称 为 资源 虚拟 化 方法 。 这 种 方案 可 以 很 好 解决 转发 器 本 地 
资源 冲突 问题 ， 但 不 适用 协议 类 资源 分 配 问 题 。 

还 有 其 他 资源 冲突 问题 ， 比 如 带宽 资源 。 分 布 式 控制 面试 图 占用 一 些 带 宽 ， 而 控制 
器 也 会 使 用 这 些 带宽 资源 ， 如 何 处 理 此 类 带宽 资源 冲突 问题 同样 需要 慎重 考虑 。 解 决 这 
种 冲突 问题 的 方案 根据 具体 资源 不 同 而 不 同 。 如 果 是 带宽 资源 ， 因 为 分 布 式 控制 面 是 由 
IGP TE 协议 扩散 这 些 资源 状态 的 ， 控 制 器 同样 可 以 利用 这 个 协议 ， 和 分 布 式 控制 面 形成 
一 个 系统 , 控制 器 也 是 分 布 式 控制 面 中 的 一 个 节点 ,并 向 分 布 式 控制 面 扩散 自己 的 TEDB 
信息 ， 这 样 就 类 似 完 全 采用 传统 分 布 式 的 方式 进行 资源 预 留 处 理 了 。 当 然 ， 为 了 实现 这 
个 方式 还 需要 一 个 序列 化 的 分 布 式 事务 机 制 ， 解 决 数据 一 致 性 问题 ， 不 过 传统 分 布 式 网 
络 对 此 已 经 有 比较 成 熟 的 解决 方案 ， 此 处 不 再 深入 讨论 。 

另外 ， 值 得 关注 的 是 业务 实例 的 具体 迁移 过 程 。 迁 移 一 个 实例 到 控制 器 的 过 程 ， 通 
常 根 据 业 务 不 同 而 不 同 ， 需 要 详细 设计 如 何 进 行 不 间断 业务 迁移 。 如 果 人 允许 短 时 间 中 断 
业务 , 那 方案 相对 简单 。 因 为 可 以 直接 在 控制 器 上 创建 一 个 全 新 的 业务 实例 , 比如 L3VPN 
实例 , 然后 把 那些 接 入 业务 接口 和 接 入 协议 直接 重新 绑 定 到 新 的 L3VPN 实例 , 就 可 以 实现 
业务 迁移 。 而 要 做 到 不 中 断 业 务 迁移 ， 就 需要 比较 复杂 的 过 程 。 针 对 L3VPN 的 迁移 ， 
可 以 考虑 在 控制 器 创建 一 个 新 的 业务 实例 ， 但 是 转发 面 的 转发 表 使 用 原来 的 分 布 式 控制 
面 的 那个 L3VPN 业务 实例 的 转发 表 。 此 时 这 个 转发 表 的 数据 还 都 是 分 布 式 控制 面 生成 
的 ， 控 制 器 并 不 生成 转发 表 。 然 后 ， 可 以 考虑 在 控制 器 上 启动 一 个 BGP RR (BGP， 路 
由 反射 器 , 当然 也 可 以 采用 MP-BGP RR, 技术 实现 细节 会 稍 有 不 同 。 控 制 器 使 用 BGP RR 
是 要 把 VPN 路 由 直接 作为 私 网 路 由 传递 给 PE， 此 时 需要 采用 每 VPN 每 标签 方式 , 解决 
VPN 标签 分 配 问题 ， 如 果 采 用 MP-BGP RR， 则 可 以 采用 类 似 每 路 由 每 标签 方式 )， 让 转 
发 器 上 所 有 的 VPN 路 由 都 通过 RR 协议 发 布 给 控制 器 ， 这 样 控制 器 就 获得 了 全 部 VPN 
路 由 。 接着, 控制 器 会 生成 这 些 VPN 的 路 由 数据 下 发 到 转发 器 ,转发 器 使 用 控制 器 的 路 
由 数据 覆盖 原来 的 转发 器 分 布 式 控制 面 的 转发 表 数 据 。 最 后 ， 转 发 器 上 的 转发 面 关 闭 分 
布 式 控制 面 下 发 过 来 的 路 由 数据 。 这 样 ， 通 过 部 署 RR 技术 以 及 使 用 相同 VRF 转发 表 实 
例 ， 使 得 业务 可 以 连续 ， 整 个 迁移 过 程 不 会 造成 业务 中 断 。 这 里 仅仅 是 一 个 业务 实例 ， 
每 种 业务 可 能 需要 单独 考虑 如 何 进行 不 间断 业务 的 迁移 。 这 种 不 间断 业务 迁移 可 以 认为 
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是 一 种 在 线 业 务 搬迁 技术 ， 整 体 过 程 如 图 8-4 所 示 。 


控制 器 控制 VPN1 实例 





图 8-4 在线 业务 搬迁 过 程 示 意图 


这 种 技术 解决 了 接 入 VPN 路 由 的 处 理 ， 当 然 还 需要 处 理 内 部 交换 路 径 向 SDN 网 络 
迁移 问题 。 内 部 路 径 迁 移 相 对 比较 容易 ， 可 以 采用 类 似 OpenFlow、PCE、PCE+ 等 技术 
在 控制 器 上 部 署 集中 路 径 计 算 模 块 ， 直 接 实现 内 部 路 径 调 整 。 而 内 部 路 径 切 换 过 程 可 以 
采用 make-before-broken 技术 ， 就 是 先 建立 一 个 路 径 ， 然 后 把 业务 倒 换 到 这 个 新 路 径 上 ， 
这 样 就 不 会 因为 内 部 路 径 切换 导致 丢 包 问题 。 

针对 特定 业务 都 需要 考虑 如 何 进 行 此 类 业务 在 线 搬迁 (Inline Service Migration), 通 
常 方 法 可 能 各 不 相同 , 但 是 基本 原理 都 差不多 。 一 个 业务 实例 从 传统 网 络 向 SDN 网 络 迁 
移 的 技术 是 所 有 平滑 迁移 的 基础 ， 所 以 作为 一 个 控制 器 供应 商 ， 提 供 的 解决 方案 应 该 充 
分 考虑 现 网 的 各 种 业务 实例 如 何 向 SDN 网 络 平滑 迁移 。 


8.2 ” 按 业 务 混合 组 网 


这 种 迁移 方式 中 的 “业务 ”是 指 IPv6 业务 、 组 播 业 务 、L3VPN 业务 等 。 这 种 按 业 
务 混 合 组 网 方式 是 指 在 网 络 中 部 署 控制 器 对 特定 业务 进行 集中 控制 ， 比 如 对 组 播 业 务 进 
行 集中 控制 ， 其 他 业务 仍然 保持 分 布 式 网 络 控制 。 那 么 整个 过 程 和 上 面 描述 的 基于 业务 
实例 方式 的 Hybrid 迁移 方案 很 像 ， 控 制 器 可 以 先 对 特定 业务 进行 控制 ， 当 这 个 业务 比较 
成 熟 后 ， 再 逐渐 把 其 他 业务 迁移 到 控制 器 。 每 个 业务 迁移 到 控制 器 的 过 程 都 可 以 采用 上 
面 基于 业务 实例 方式 的 Hybrid 进行 迁移 。 这 种 按 业 务 混 合 组 网 的 方式 如 图 8-5 所 示 。 

图 8-5 中 例子 的 基本 思路 是 把 组 播 业 务 由 控制 器 控制 ， 其 他 业务 在 分 布 式 控制 面 控制 。 
这 样 做 可 以 充分 积累 在 SDN 网 络 下 的 网 络 运行 维护 经 验 ， 并 且 一 些 传统 分 布 式 网 络 业务 比 
较 成 熟 ， 也 可 以 先 不 急于 迁移 到 SDN 网 络 ， 未 来 可 以 按 需 逐步 地 迁移 到 控制 器 管控 。 

把 哪些 业务 先 集中 控制 呢 ? 可 以 考虑 优先 把 一 些 新 业务 、 变 化 多 的 业务 进行 集中 控 
制 。 因 为 这 些 业 务 多 变 ， 只 要 通过 控制 器 实现 ， 以 后 就 容易 支持 新 业务 的 快速 开发 、 上 
线 、 验证 能 力 了 , 充分 享受 SDN 网 络 带 来 的 好 处 。 比 如 现在 还 出 现 一 种 Segment Routing 
CSR) 技术 ， 如 果 把 这 个 特性 在 控制 器 上 实现 ， 就 会 使 整个 方案 变 得 非常 简单 。 因 为 不 
需要 扩展 网 络 的 IGP 就 可 以 实现 该 技术 ， 直 接 通过 控制 器 下 发 Segment Routing 路 由 就 
可 以 。 另 外 ， 由 各 种 策略 变化 导致 SR 的 需求 变化 很 容易 通过 升级 SDN 控制 器 软件 程序 
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来 快速 实现 和 增加 验证 ， 因 为 不 需要 等 待 标准 了 ; 而 IETF 的 SR 工作 组 正在 制定 的 SR 
草案 ， 则 需要 修改 现 网 的 IGP 才能 支持 SR。 当 然 ，IETF 定义 的 是 传统 的 分 布 式 网 络 实 
现 方案 ，IETF 给 出 的 方案 和 控制 器 实现 SR 相 比 复杂 很 多 。 控 制 器 实现 SR 根本 不 需要 
扩展 IGP， 这 样 简化 了 网 络 协议 ， 也 可 以 快速 实现 和 验证 SR 特性 ， 详 细 的 SR 技术 读者 
可 以 自行 参考 IETF 草案 。 
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路 由 器 1 路 由 器 2 路 由 器 3 
图 8-5” 按 业务 Hybrid 部 署 






8.3” 按 网 络 设备 混合 组 网 


这 种 模式 下 ， 一 个 自治 系统 的 一 部 分 设备 归属 控制 器 控制 ， 其 他 设备 由 分 布 式 控制 
面 控制 ， 基 本 模型 如 图 8-6 所 示 。 和 

在 这 种 模式 下， 部 分 路 由 器 归属 控制 
器 控制 , 部 分 路 由 器 归属 传统 的 分 布 式 控制 
面 控制 ， 并 由 OSS 负责 业务 管理 。 那 么 部 
署 一 个 涉及 整 网 的 业务 ， 就 需要 OSS 同时 
分 发 给 控制 器 和 路 由 器 设备 。 这 种 情况 要 求 
控制 器 实现 所 有 的 域内 通信 协议 , 以 便 能 
和 传统 分 布 式 网 络 域内 协议 互通 , 这 些 协 议 
包括 LDP、RSVP、MBGP、PIM 等 。 这 样 
整体 的 系统 复杂 度 急剧 上 升 , 并 且 由 于 实现 图 8-6 按 网 络 设备 Hybrid 部 署 
一 个 网 络 业务 ， 必 须 同 时 在 分 布 式 控制 面 实现 业务 ， 也 需要 控制 器 实现 业务 ， 就 不 支持 快速 
业务 创新 了 ， 也 不 会 使 网 络 得 到 简化 ， 反 而 变 得 更 加 复杂 ， 所 以 不 推荐 这 种 混合 组 网 方案 。 





8.4 按 自治 系统 混合 组 网 


在 这 种 组 网 中 , 把 一 个 自治 系统 部 署 SDN 控制 器 进行 集中 控制 , 而 其 他 周边 自治 系 
统 网 络 仍然 保持 分 布 式 控 制 的 传统 网 络 ， 那 么 SDN 网 络 就 可 以 通过 域 间 协议 (比如 BGP 
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路 由 协议 ) 和 周边 传统 网 络 进行 互通 ， 而 域内 的 所 有 业务 都 可 以 由 SDN 控制 器 控制 。 同 
时 ， 控 制 器 所 控制 的 网 络 内 部 的 很 多 域内 协议 ， 如 LDP、RSVP、MBGP、PIM、ISIS6、 
OSPFV3 等 都 可 以 不 用 部 署 了 。 因 为 域内 的 路 径 计 算 都 是 由 集中 的 控制 器 完成 的 ， 而 边 
缘 接 入 业务 也 是 由 控制 器 完成 的 。 图 8-7 是 该 组 网 方式 的 示意 图 。 





图 8-7 按 自 治 系统 Hybrid 部 署 


这 种 组 网 方式 , 控制 器 必须 支持 BGP 等 跨 域 路 由 协议 。 如 果 不 希望 路 由 协议 运行 在 
控制 器 ， 一 种 可 上 可 下 部 署 技术 可 以 把 边缘 接 入 业务 和 协议 ， 比 如 BGP、VPN 业务 , 仍 
然 部 署 在 转发 器 由 分 布 式 控制 面 控 制 ， 而 仅仅 把 一 个 自治 系统 内 部 的 域内 交换 路 径 集中 
在 控制 器 实现 。 这 种 可 上 可 下 部 署 也 是 一 种 过 渡 方 案 ， 具 有 非常 大 的 实用 价值 。 


8.5 MPLS 网 络 和 Native IP 网 络 向 SDN 演进 : PCE+ 和 RR+ 


8.5.1 PCE+ 解 决 方案 


PCE+ 方 案 是 现 网 部 署 了 MPLS 的 网 络 向 SDN 网 络 迁 移 的 一 个 方案 。 如 果 把 网 络 功 
能 分 为 网 络 内 部 的 Fabric〔 交 换 网 ) 的 交换 路 径 的 计算 和 网 络 边缘 接 入 业务 的 处 理 两 个 
功能 , 那么 可 以 试 着 先 把 内 部 交换 网 功能 进行 集中 控制 。 PCE+ 是 一 个 典型 的 域内 交换 路 
径 的 集中 控制 方案 ， 其 基本 组 网 如 图 8-8 所 示 。 
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图 8-8 PCE+ 解 决 方案 
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这 个 方案 通常 适用 于 网 络 已 经 部 署 了 MPLS 的 网 络 。 下 面 先 介绍 PCE 如 何 进 行 集中 
域内 路 径 的 计算 。 如 图 8-8 所 示 ， 控 制 器 需要 和 承担 边缘 接 入 业务 的 转发 器 建立 PCEP 
协议 。 如 果 需 要 建立 一 个 从 路 由 器 A 到 路 由 器 C 的 100Mbit/s 带宽 的 隧道 ， 那 么 路 由 器 
A 把 隧道 请 求 通过 PCEP 协议 发 送 给 控制 器 , 控制 器 计算 出 来 的 路 径 是 A 一 B 一 C 这 条 路 ， 
然后 控制 器 告诉 路 由 器 A， 路 由 器 A 就 利用 RSVP 协议 建立 起 一 个 经 过 A 一 B 一 C 路 径 
带宽 为 100Mbit/s 的 隧道 供给 业务 使 用 。 而 边缘 接 入 业务 处 理 ， 比 如 L2VPN、L3VPN 等 
业务 ， 都 没有 集中 到 控制 器 进行 控制 ， 仍 然 采 用 分 布 式 控制 面 进行 处 理 ， 并 且 在 转发 器 
本 地 把 这 些 业 务 路 由 迭代 到 上 面 由 控制 器 采用 PCE 计算 生成 的 、 并 由 本 地 RSVP 创建 的 
那个 A 一 B 一 C 的 隧道 。 这 种 把 路 径 计 算 集中 到 控制 器 计算 的 方法 ， 可 以 有 效 地 解决 路 
径 计算 策略 的 复杂 性 和 多 变性 问题 ， 但 是 方案 中 路 径 建 立 仍然 采用 RSVP， 而 RSVP 扩 
展 性 有 严重 问题 ,其 软 状态 的 基因 导致 无 法 建立 大 规模 隧道 ， 所 以 这 个 PCE 方案 仍然 有 
需要 改进 的 地 方 ， 需 要 改进 的 就 是 如 何 去 掉 RSVP。 而 去 掉 RSVP 的 PCE 方案 就 是 我 们 
所 说 的 PCE+ 方 案 。 另 外 一 种 去 掉 RSVP 的 技术 是 上 面 提 到 的 Segment Routing 技术 ， 读 者 
可 以 自行 参阅 IETF 的 标准 文件 ， 本 书 不 做 展开 介绍 了 。 

PCE+ 是 PCE 的 一 种 增强 。 去 掉 RSVP 的 方法 其 实 很 简单 ， 就 是 目前 IETF 标准 组 织 
讨论 的 PCECC 草案 ， 这 个 草案 直接 去 掉 了 RSVP。PCECC 的 工作 原理 如 图 8-9 所 示 。 
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路 由 器 A 路 
图 8-9 控制 器 和 每 台 转 发 器 (路 由 器 ) 都 建立 PCECC 协议 连接 


控制 器 和 每 台 转 发 器 都 建立 了 PCECC 协议 连接 ,该 协议 是 PCEP 协议 的 一 个 扩展 。 
控制 器 不 仅 计 算 隧 道路 径 ， 还 给 转发 器 分 配 标签 ， 并 通过 PCECC 协议 直接 把 标签 交换 
路 径 LSP 下 发 给 路 径 上 的 每 个 设备 , 这 样 RSVP 也 就 不 需要 了 。 关于 这 样 创建 的 LSP 
的 维护 监控 问题 ， 简 单 地 部 署 各 种 OAM (比如 BFD 或 者 TPOAM) 进行 状态 监控 就 
可 以 。 当 监控 到 LSP 出 现 故 障 时 ， 可 以 通报 给 控制 器 ， 控 制 器 进行 重新 计算 。 除 了 
PCECC 协议 规定 的 PCEP 扩展 协议 方式 下 发 LSP 路 径 信 息 外 ， 也 可 以 直接 通过 类 似 
OpenFlow、Netconf 等 协议 直接 操控 转发 器 来 完成 LSP 的 创建 。PCE+ 方 案 去 除了 
RSVP， 避 免 RSVP 带 来 的 问题 ， 解 决 了 大 规模 扩展 问题 。 在 PCE+ 方 案 下 ， 边 界 接 入 
业务 并 不 需要 集中 到 控制 器 处 理 , 控制 器 仅仅 完成 域内 MPLS 交换 路 径 的 计算 、 路 径 
的 构建 、 监 控 和 控制 。 
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在 上 面 讨论 的 PCE+ 方 案 中 ， 隧 道 业 务 配 置 在 转发 器 ， 然 后 由 转发 器 向 控制 器 请 求 
隧道 计算 。 这 种 方式 使 用 起 来 并 不 方便 ， 也 不 符合 SDN 控制 器 理念 。SDN 网 络 的 理念 
是 自 上 而 下 控制 ， 所 以 不 希望 在 路 由 器 上 配置 隧道 ， 然 后 反 向 托管 到 控制 器 ， 而 是 希望 
给 控制 器 下 发 一 个 创建 路 由 器 A 到 路 由 器 C 的 100Mbit/s 带宽 隧道 的 命令 。 此 时 ， 需 要 
控制 器 根据 网 络 拓 扑 信 息 计算 出 满足 需求 的 隧道 路 径 ， 并 直接 把 隧道 转发 表 信息 下 发 到 
路 由 器 。 下 发 隧道 转发 信息 的 方式 当然 还 是 前 面 讨论 的 两 种 ， 通 过 普通 PCEP 协议 通知 
隧道 头 节 点 A, 在 网 络 内 部 采用 RSVP 建立 到 C 的 路 径 ; 或 者 ,采用 PCECC 协议 、Netconf 
协议 、OpenFlow 协议 等 ， 直 接 给 隧道 路 径 上 的 转发 器 下 发 转发 表 信息 。 这 种 自 上 而 下 的 控 
制 才 符合 SDN 理念 ， 而 PCE 的 一 个 草案 叫 作 draft-ietf-pce-pce-initiated-lsp-02 就 定义 了 这 种 
行为 。 

另外 ， 本 书 第 1 章 讨论 过 关于 业务 路 径 全 局 重 优化 功能 ， 来 解决 因为 业务 时 序 问 题 
导致 部 分 业务 无 法 建立 的 问题 ， 也 可 以 通过 PCE+ 方 案 来 解决 。 为 了 能 够 进行 全 局 重 优 
化 计算 ， 控 制 器 除了 需要 收集 网 络 拓扑 信息 《含有 TEDB 信息 ， 即 流量 工程 信息 ) 外 ， 
还 必须 有 全 部 的 业务 请 求 信息 ， 才 能 正确 地 进行 全 局 业务 路 径 优 化 计算 。 标 准 组 织 目前 
讨论 的 一 个 草案 draft-ietf-pce-stateful-pce-10 中 ， 定 义 了 如 何 收集 全 部 的 业务 请 求 。 通 过 
这 个 草案 增强 , PCE+ 可 以 对 所 有 业务 路 径 进 行 一 次 性 计算 , 解决 第 1 章 描述 的 因为 业务 
请 求 时 序 带 来 的 部 分 业务 失败 问题 。 

前 面 讨论 的 PCE+ 都 是 根据 业务 隧道 需求 , 通过 控制 器 计算 出 一 条 满足 需求 的 TE 路 
径 ， 并 生成 TE 隧道 ， 然 后 可 以 把 业务 数据 流 引 入 到 这 个 隧道 上 承载 业务 。 这 种 方案 的 
基本 思路 是 基于 资源 预 留 的 。 当 有 一 条 业务 隧道 请 求 ， 上 面 的 例子 中 ，A 一 C 需要 
100Mbit/s 带宽 ， 控 制 器 完成 路 径 计 算 后 ， 就 需要 确保 网 络 能 够 提供 100Mbit/s 带宽 分 配 
给 这 个 隧道 使 用 。 这 样 在 实际 的 控制 器 PCE+ 实 现 中 ， 需 要 对 网 络 拓扑 中 的 剩余 带宽 信 
息 进 行 管理 ， 以 保证 系统 不 会 把 网 络 带 宽 资 源 超 售 。 而 在 数据 面 ， 也 必须 保证 进入 这 条 
隧道 的 业务 流量 小 于 100Mbit/s 时 ， 应 该 能 够 全 部 被 网 络 承载 ， 当 进入 这 条 隧道 的 业务 
流量 大 于 100Mbit/s 时 ， 则 需要 进行 流量 控制 ， 通 常 是 在 隧道 的 头 节 点 进行 CAR 流 控 。 
当然 ， 根 据 网 络 的 销售 策略 不 同 ， 也 可 以 提供 一 类 忙 时 确保 带宽 、 闲 时 可 以 有 超过 隧道 
预订 带宽 的 流量 通过 的 服务 。 此 类 服务 可 以 在 网 络 空闲 时 ， 为 某 些 业务 提供 超过 预订 带 
宽 的 速率 的 流量 通过 ， 也 就 是 说 ， 在 实现 PCE+ 方 案 过 程 中 ， 需 要 考虑 QoS 服务 问题 。 

在 实际 的 PCE+ 解 决 方案 中 , 还 会 有 一 类 需求 一 一 利用 PCE+ 进 行 网 络 流量 路 径 实 时 
动态 调整 。 此 类 需求 是 为 了 解决 网 络 上 最 短路 径流 量 拥塞 而 一 些 非 最 短路 径 上 带宽 却 大 
量 空闲 的 场景 ， 并 且 需 要 根据 网 络 的 实时 流量 信息 进行 动态 实时 调整 流量 ， 这 样 整体 的 
控制 器 PCE+ 的 实现 方案 中 ， 就 会 包含 如 图 8-10 所 示 的 功能 部 件 。 

控制 器 需要 采集 网 络 实 时 流量 信息 : 每 条 链 路 上 的 带宽 利用 率 情况 ， 同 时 还 需要 分 
析 网 络 中 的 实时 流量 矩阵 数据 ， 甚 至 要 分 析 一 些 大 象 流 〈 比 较 稳 定 的 大 流量 报 文 流 ) 信 
息 ， 并 把 它们 存储 在 网 络 实时 性 能 分 析 数 据 模块 。 控 制 器 会 接受 用 户 的 一 些 策略 输入 ， 
比如 ， 当 链 路 带宽 利用 率 达 到 某 个 门限 时 开始 启动 流量 路 径 调整 计算 。 这 样 ， 控 制 器 的 
实时 路 径 计 算 算 法 根据 网 络 的 拓扑 情况 、 网 络 实 时 性 能 分 析 数 据 、 用 户 策略 、LSPDB 等 
数据 ， 可 以 实时 对 网 络 流量 路 径 进行 调整 ， 达 到 用 户 期 望 的 效果 。 这 种 解决 方案 可 以 解 
决 网 络 部 分 链 路 拥塞 丢 包 而 其 他 链 路 大 量 空闲 的 问题 。 
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控制 器 ，PCE+ 架构 





8-10 SDN 网络 PCE+ 流 量 调整 架构 


8.5.2 ”SDN RR+ 解 决 方案 


上 面 介 绍 了 利用 PCE+ 方 案 将 MPLS 网 络 向 SDN 网 络 迁移 的 过 程 ， 而 另外 一 种 形式 的 
网 络 迁移 是 网 络 并 没有 部 署 MPLS, 而 是 仅仅 部 署 了 IP 网 络 ， 该 如 何 通过 SDN 网 络 来 实施 
对 了 P 网 络 的 路 径 集 中 控制 呢 ? 一 种 可 行 的 办 法 是 引入 RR+ 方 案 ，RR+ 是 指 BGP RR+ 方 案 。 
RR (Route Reflect， 路 由 反射 器 ) 在 传统 网 络 已 经 广泛 使 用 ， 不 过 通常 是 部 署 在 路 由 器 内 运 
行 。 现 在 的 方案 是 ， 把 RR 部 署 在 控制 器 运行 ， 同 时 利用 RR 机 制 进行 一 定 的 功能 扩展 ， 解 
决 域内 和 域 间 的 IP 路 由 灵活 调整 能 力 ， 由 此 能 够 灵活 控制 流量 如 何 进入 运营 商 网 络 以 及 如 
何 流出 运营 商 网 络 ， 以 及 在 域内 流量 路 径 该 如 何 走 。 完 成 了 这 种 功能 扩展 的 RR 叫 作 RR+。 
RR+ 首 先 保留 了 所 有 的 RR 能 力 ， 可 以 简单 当 作 RR， 同 时 还 增加 了 很 多 RR 没有 的 功能 ， 
比如 增加 了 灵活 的 BGP 策略 集中 到 SDN 控制 器 计算 ， 完 成 各 种 流量 调整 功能 。 

运营 商 因 为 各 种 原因 希望 自己 能 够 快速 灵活 地 调整 域 间 流量 。 比 如 ， 一 个 运营 商 
接 入 到 其 他 几 家 运营 商 网 络 ， 尤 其 是 一 些小 的 运营 商会 接 入 到 全 球 TIER1 运营 商 〈 指 
全 球 Internet 网 络 上 的 顶级 网 络 运营 商 ， 他 们 提供 全 网 骨干 网 互联 服务 ) 服务 网 络 。 那 
么 这 个 运营 商 和 这 些 TIER 1 运营 商 之 间 的 结算 费用 方式 不 同 ， 导 致 这 个 运营 商 可 能 希 
望 把 流量 优先 经 过 某 个 费用 便宜 的 TIER1 运营 商 。 另 外 一 个 需求 是 运营 商 观察 到 域 间 
的 某 些 路 径 上 面 业 务 流量 很 大 ， 但 是 其 他 域 间 路 径 上 流量 比较 小 ， 那 么 希望 能 够 把 流 
量 进行 均衡 ， 使 得 每 个 路 径 都 能 应 对 突 发 的 流量 冲击 ;也 有 运营 商 希望 对 使 用 其 网 络 
服务 的 其 他 企业 (比如 OTT) 提供 一 些 VIP 服务 ， 让 这 些 企业 的 网 络 流量 优先 走 一 些 
服务 质量 好 的 路 径 。 这 些 都 是 IP 网 络 的 域 间 路 径 调 整 策略 需求 。 而 域内 的 卫 路 径 调整 
大 部 分 时 候 是 因为 解决 链 路 流量 不 均衡 问题 ， 希 望 提 高 整 网 的 业务 吞吐 率 。 总 之 ， 运 
营 商 可 能 出 于 各 种 需求 希望 能 够 有 一 个 快速 灵活 调整 域 间 、 域 内 流量 走向 的 方法 ， 并 
且 不 希望 频繁 升级 路 由 器 软件 ， 也 不 希望 在 路 由 器 上 进行 各 种 策略 配置 操作 。 因 为 每 
次 对 路 由 器 软件 升级 ， 不 仅 工 程 耗 时 耗 力 ， 还 存在 很 大 风险 ; 更 改 配置 也 是 一 样 的 ， 
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存在 很 大 风险 ， 经 常 因为 配置 错误 导致 网 络 出 现 故障 。 如 果 有 了 RR+， 运 营 商 只 要 把 
自己 的 需求 下 发 给 支持 RR+ 的 SDN 控制 器 ， 控 制 器 自动 完成 用 户 意 图 的 分 析 和 计算 ， 
并 通过 标准 的 BGP 来 控制 设备 ， 这 样 就 降低 了 修改 路 由 器 软件 和 配置 的 风险 ， 同 时 满 
足 了 用 户 的 各 种 灵活 调整 的 需求 ， 使 得 客户 可 以 完成 业务 快速 创新 。 同 时 ，RR+ 技 术 
路 由 有 良好 的 互通 兼容 性 ， 因 为 RR+ 技 术 采 用 的 依然 是 标准 BGP RR 协议 ， 可 以 直接 
支持 现 网 多 厂家 互 操作 。 

在 SDN RR+ 技 术 出 现 以 前 ， 在 路 由 器 上 面 配 置 BGP 路 由 策略 ， 也 可 以 实现 一 部 分 
策略 控制 。 但 是 ， 如 果 要 支持 新 的 策略 ， 要 经 过 传统 网 络 的 匈 长 的 需求 、 升 级 设备 等 过 
程 。 另外， 对 多 台 路 由 器 进行 策略 配置 ， 配 置 一 致 性 经 常 不 能 保证 ， 导 致 调整 过 程 中 业务 
出 错 。 而且， 运营 商 运 行 维护 人 员 很 难 从 全 网 视角 来 直接 对 流量 进行 操控 ， 必 须 先 确 定 需 
求 ， 再 逐渐 人 工分 解 给 每 个 路 由 器 配置 ， 然 后 配置 这 些 路 由 器 进行 验证 。 在 缺乏 一 个 全 网 
视角 的 情况 下 ， 业 务 操作 极其 烦琐 ， 更 何况 即使 仅仅 更 改 一 个 路 由 器 的 BGP 策略 ， 也 是 
要 冒 很 大 风险 的 ， 一 条 策略 配置 错误 可 能 导致 全 网 问题 ， 甚 至 引起 国际 关系 问题 。 值 得 庆 
幸 的 是 ， 升 级 和 更 改 配置 的 风险 、 标 准 化 的 长 周期 、 全 网 人 工 策略 部 署 的 困难 ， 在 采用 了 
SDN 的 RR+ 方 案 后 基本 都 可 以 解决 。RR+ 方 案 使 得 传统 Natvie IP 网 络 可 以 向 SDN 网 络 演 
进 ， 在 原来 的 传统 BGP 网 络 中 ， 县 加 一 个 SDN 控制 器 ， 在 SDN 控制 器 上 面 启动 RR+ 功 
能 ， 通 过 RR+ 对 用 户 关 心 的 流量 进行 调控 ， 其 他 流量 则 保持 原来 的 分 布 式 网 络 路 由 方案 。 
这 种 在 现 网 上 面 登 加 一 层 控 制 的 好 处 还 在 于 ， 如 果 SDN 控制 器 调整 的 路 由 出 现 问题 ， 比 
如 RR+ 计 算 路 由 出 现 错误 ， 运 行 维护 人 员 很 容易 就 能 够 回 退 到 传统 的 分 布 式 网 络 。 

下 面 介绍 RR+ 技 术 的 总 体 原 理 〈 如 图 8-11 所 示 )。 












控制 器 ，RR+ 技术 架构 


用 户 策略 处 理 
0 BGP 路 由 数据 库 


图 8-11 RR+ 解 决 方案 


图 中 有 AS 10989，AS 118，AS 912 三 个 自治 系统 。 以 AS 10989 为 例 ， 在 这 个 自治 
系统 个 加 了 一 个 SDN 控制 器 ， 并 部 署 RR+。 未 县 加 控制 器 的 时 候 ， 这 三 个 自治 系统 是 
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正常 工作 的 , AS 10989 和 AS 118 之 间 有 三 个 EBGP 邻居 , 分 别 是 路 由 器 A 和 路 由 器 义 、 
路 由 器 A 和 路 由 器 Y、 路 由 器 B 和 路 由 器 Y。 

而 AS 10989 和 AS 912 之 间 有 两 个 EBGP 邻居 ,分 别 是 路 由 器 A 和 路 由 器 Z、 路 由 
器 B 和 路 由 器 Z。 

而 在 AS 10989 内 ， 可 以 建立 一 个 全 互联 的 IBGP， 也 可 以 部 署 一 个 传统 的 RR， 这 
样 就 不 用 建立 全 互联 的 IBGP， 只 要 域内 每 个 节点 都 和 RR 建立 连接 关系 就 可 以 了 。 上 面 
就 是 传统 的 组 网 和 BGP 邻居 关系 。 

增加 控制 器 之 后 ， 让 控制 器 和 下 面 的 AS 10989 的 每 个 路 由 器 建立 一 个 I[BGP 连接 ， 
控制 器 作为 RR 服务 器 。 通 过 这 个 IBGP 连接， 控制 器 可 以 完成 两 个 方面 的 功能 ， 一 个 
方面 是 可 以 收集 所 有 的 BGP 路 由 数据 , 另外 一 个 方面 是 可 以 通过 这 个 IBGP 连接 作为 南 
向 协议 下 发 需要 调整 的 IP 路 由 。 控制 器 还 需要 收集 网 络 的 拓扑 数据 ， 这 通常 需要 控制 器 
和 下 面 运行 的 一 个 IGP 和 现 网 的 IGP 进行 互通 ， 现 网 部 署 了 OSPF 或 者 ISIS， 那 么 控制 
器 就 和 网 络 建立 一 个 OSPF 或 者 ISIS 的 协议 邻居 ， 负 责 收 集 拓扑 ; 当然 也 可 以 采用 类 似 
BGP LS 路 由 协议 从 转发 器 收集 拓 朴 。 为 了 进行 流量 调整 ,还 需要 一 个 网 络 性 能 分 析 部 件 ， 
这 个 网 络 性 能 分 析 部 件 会 和 网 络 建立 一 个 数据 采集 协议 ， 比 如 Netstream， 这 样 就 可 以 采 
集 并 分 析 网 络 流量 情况 了 。 这 个 方案 中 的 网 络 性 能 分 析 部 件 也 可 以 带 外 部 署 ， 单 独 部 署 
一 个 性 能 采集 分 析 器 ， 负 责 采 集 数 据 并 把 分 析 结 果 输 入 给 控制 器 。 这 样 ， 控 制 器 就 拥有 
了 BGP 路 由 数据 、 拓 扑 数据 、 网 络 性 能 分 析 数 据 三 种 网 络 数据 。 接 下 来 ， 用 户 还 会 通过 
北向 接口 输入 用 户 策略 ， 结 合 起 来 一 共有 4 种 数据 。RR+ 的 策略 处 理 程序 可 以 根据 三 种 
网 络 数据 和 用 户 策略 进行 计算 和 处 理 ， 生 成 路 由 调整 结果 ， 通 过 BGP RR 反射 给 对 应 的 
路 由 器 ;路 由 器 收 到 控制 器 反射 过 来 的 路 由 ， 就 可 以 本 地 选 路 并 使 这 些 路 由 生效 。 于 是 
IP 路 由 发 生 了 变化 ， 流 量 所 流 过 的 路 径 也 发 生 了 变化 。 这 就 是 RR+ 的 基本 工作 原理 。 

上 面 介 绍 的 RR+ 基 本 原理 ， 控 制 器 上 的 用 户 策略 处 理 模块 的 需求 是 最 多 变 的 ， 因 为 
每 个 运营 商都 有 各 自 的 各 种 各 样 的 策略 控制 需求 。 另 外 的 拓扑 数据 、BGP 路 由 数据 、 网 
络 流量 数据 三 个 网 络 数据 都 是 网 络 资源 数据 ， 仅 仅 随 网 络 状 态 变化 ， 通 常 使 用 路 由 协议 
来 学 习 和 收集 。 最 重要 的 是 ， 如 果 说 用 户 策略 处 理 模 块 生成 了 路 由 ， 控 制 器 到 底 如 何 影 
响 转发 器 改变 转发 路 由 的 呢 ?” 这 是 需要 重点 介绍 的 。 前面 说 过 采用 RR+ 技 术 的 一 个 好 处 
是 兼容 现 网 的 BGP 实现， 就 是 说 不 用 修改 现 网 BGP 的 实现 ， 也 不 用 升级 现 网 设备 ， 就 
可 以 完成 控制 。 下 面 介绍 几 种 路 由 控制 方法 。 

@ 域内 路 径 控制 技术 。 

@ 进入 自治 系统 的 入 口 流 量 控 制 技术 。 

@) 离开 自治 系统 的 出 口 流量 控制 技术 。 

1. RR+ 域 内 路 径 控制 技术 

RR+ 域 内 路 径 控制 技术 是 采用 RR+ 来 实现 网 络 内 部 的 卫 路 径 控 制 技术 。 这 个 部 分 介 
绍 如 何 实现 IBGP 域内 路 径 调整 。RR+ 域 内 路 径 控制 技术 原理 如 图 8-12 所 示 。 

假定 AS 912 内 有 一 个 全 子 网 ， 地 址 为 28.6.55.0/24， 那 么 这 个 前 绥 会 发 送 给 路 由 器 
A 和 B。 传 统 地 正常 地 实现 ， 路 由 器 A 和 B 会 给 所 有 域内 路 由 器 发 送 一 个 路 由 ， 如 果 不 
更 改 下 一 跳 ， 那 么 路 由 大 概 就 是 : 


IP prefix =28.6.55.0/24 BGP nexthop =Z，.…. 
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控制 器 ，RR+ 技术 架构 





图 8-12 ”域内 路 径 控制 技术 


这 样 域内 每 台 路 由 器 会 根据 BGP 的 选 路 规则 ， 通 常 就 是 最 短路 径 转发 ， 比 如 ; 

E 会 选择 从 EC 一 A 一 Z 

F 会 选择 从 F 一 D 一 B 一 Z | 

在 SDN 的 RR+ 方 案 中 ， 由 于 用 户 的 某 种 需求 ， 控 制 器 计算 出 来 认为 从 EE 进入 的 报 
文 的 目的 地 址 属于 28.6.55.0/24 时 ， 希 望 走 的 路 径 为 E 一 C 一 D 一 B 一 Z。 那 么 控制 器 该 如 
何 通 过 IBGP 达到 让 报 文 走 这 个 指定 路 径 的 呢 ? 就 是 利用 更 改 BGP 下 一 跳 的 方法 来 完 
成 ， 控 制 器 分 别 会 给 E、C、D 反射 如 下 的 路 由 器 。 


给 E 反射 的 路 由 :JP prefix =28.6.55.0/24 BGP nexthop =C，... 
给 C 反射 的 路 由 ; IP prefix =28.6.55.0/24 BGP nexthop =D，... 
给 DD 反射 的 路 由 : IP prefix =28.6.55.0/24 BGP nexthop =B，.…. 


经 过 这 样 的 过 程 之 后 ， 路 由 器 E、C、D 本 地 BGP 选 路 并 迭代 IGP 路 由 时 ， 就 直接 
迭代 到 了 它们 直接 相连 的 那个 路 由 器 上 。 于 是 ， 这 些 路 由 器 的 路 由 是 : 

E 的 路 由 : IP prefix =28.6.55.0/24 nexthop =C，out Interface=EC 

EC 是 路 由 器 EE 连接 到 C 的 接口 ， 表 示 方 法 下 同 


C 的 路 由 : IP prefix =28.6.55.0/24 nexthop =D，out Interface=CD 
了 的 路 由 : JP prefix =28.6.55.0/24 nexthop =B，onut Interface=DB 


这 样 报 文 一 旦 进入 E， 就 会 根据 E 一 C 一 D 一 B 的 路 径 转 发 出 去 。 
上 面 的 路 由 方式 有 着 细微 的 差别 ， 一 个 是 BGP Nexthop， 一 个 是 Nexthop。 前 面 的 
是 BGP 路 由 下 一 跳 ， 是 一 个 路 由 器 的 BGP 发 送 给 BGP 邻居 ， 告 诉 BGP 邻居 路 由 器 自 
己 可 以 到 达 某 个 子 网 ， 比 如 路 由 器 A 可 以 告诉 其 他 BGP 邻居 《比如 路 由 器 E) 自己 可 
以 到 达 28.6.55.0/24 子 网 ， 于 是 把 BGP 下 一 跳 设置 为 路 由 器 A 的 IP 地 址 就 可 以 了 。 不 
能 用 一 个 BGP 下 一 跳 作 为 实际 转发 的 下 一 跳 ， 因 为 这 些 路 由 器 之 间 可 能 不 是 直接 相连 
的 ， 无 法 转发 ， 转 发 基本 原理 是 必须 找到 这 个 报 文 需要 送 交 的 直接 下 一 跳 邻 居 ， 而 路 由 器 
A 和 EE 中间 还 有 一 个 C, E 是 没有 办 法 把 A 的 地 址 作为 实际 转发 下 一 跳 的 。 路 由 器 EE 转发 
需要 使 用 真实 下 一 跳 ， 比 如 还 是 路 由 器 E, 它 的 一 条 路 由 28.6.55.0/24 的 下 一 跳 (或 者 IGP 
下 一 跳 ， 转 发 下 一 跳 ) 是 C， 并 且 安 装 到 转发 表 了 ， 那 么 EE 就 可 以 把 去 往 这 个 网 段 的 报 文 
通过 查找 转发 表 ， 发 现 应 该 送 给 C， 路 由 器 E 就 会 把 报 文 转发 给 C， 这 里 的 下 一 跳 必 须 是 
直接 邻居 才 行 。 而 路 由 器 的 路 由 计算 必须 完成 路 由 的 BGP 的 下 一 跳 到 转发 下 一 跳 的 计算 ， 
这 个 过 程 叫 作 路 由 迭代 ， 而 其 基本 方法 就 是 拿 BGP 传递 过 来 的 一 条 路 由 里 面 的 BGP 下 一 
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跳 地 址 ， 比 如 是 路 由 器 A 的 地 址 ， 在 IGP 路 由 表 中 去 查找 如 何 到 达 A， 比 如 E 发 现 IGP 
路 由 器 中 通过 C 可 以 到 达 A， 于 是 就 把 这 个 路 由 的 直接 下 一 跳 修改 为 C。 过 程 总 结 如 下 。 

路 由 器 EE 收 到 一 个 从 A 过 来 的 BGP 路 由 : 

IP prefix =28.6.55.0/24 BGP nexthop =A ... 

然后 路 由 器 卫 中 的 IGP 路 由 学 习 到 了 : 

IP addr=A nexthop =C Out Interface = EC 

于 是 路 由 器 E 就 迭代 生成 了 最 后 的 路 由 : 

IP prefix =28.6.55.0/24 nexthop =C Out Interface = EC 


而 上 面 路 由 器 A 发 给 路 由 器 E 的 BGP 路 由 可 以 不 修改 BGP 下 一 跳 为 自己 , 也 可 以 
修改 ,保持 原来 的 BGP 下 一 跳 Z。 根 据 实际 组 网 可 以 选择 是 否 要 修改 ， 如 果 不 修改 ， 那 
么 在 AS 10989 内 就 必须 有 路 由 器 Z 的 IGP 路 由 ， 才 能 成 功 欠 代 。 

上 面 正 是 利用 了 改变 下 一 跳 技 术 来 完成 域内 的 IP 显示 路 径 建立 的 ， 通 过 BGP RR+ 
来 完成 一 个 卫 显示 路 径 的 转发 过 程 。 这 个 过 程 中 , 转发 器 也 就 是 路 由 器 的 转发 行为 都 和 
以 前 传统 网 络 一 样 ， 但 是 结果 是 路 由 器 实际 生成 的 路 由 根据 控制 器 下 发 过 来 的 转发 路 径 
进行 转发 了 ， 达 到 按照 显示 路 径 转 发 的 效果 。RR+ 的 最 核心 原理 就 是 试图 通过 控制 器 运 
行 的 BGP 的 RR， 来 直接 影响 转发 器 的 IP 路 由 ， 从 而 提高 控制 器 直接 控制 转发 器 的 IP 
路 由 表 的 能 力 ， 以 达到 控制 IP 报 文 转发 路 径 的 目的 。 

上 面 转发 过 程 中 存在 一 个 现象 : 一 旦 生成 这 样 的 显 式 路 径 , 对 于 同一 个 目的 前 缀 ( 比 
如 28.6.55.0/24) 在 域内 不 能 建立 两 条 相交 的 显 式 路 径 ， 因 为 一 旦 两 条 路 径 相 交 ， 比 如 相 
交 于 路 由 器 C， 那 么 从 C 向 后 的 转发 路 径 一 定 是 C 一 D 一 B， 无 法 分 开 ， 这 种 现象 叫 作 
RR+ 的 流 汇聚 现象 。 本 来 流 汇 聚 现象 是 一 种 正常 的 现象 ， 在 IP 网 络 中 ， 采 用 人 P 转发 都 
会 有 这 种 流 汇聚 ,但 是 RR+ 试 图 建立 很 多 显 式 路 径 ， 比 如 有 一 条 路 是 从 EE 进入 的 目的 地 
址 为 28.6.55.0/24， 另 外 一 条 显 式 路 径 是 为 从 E 进入 的 目的 地 址 为 28.6.55.0/24 的 ， 那 么 
两 条 路 径 一 旦 相交 就 不 能 分 离 ， 在 不 使 用 隧道 技术 帮助 下 ， 这 种 问题 是 无 法 解决 的 ， 在 
流量 调整 算法 中 需要 注意 这 种 问题 。 

当选 择 改变 下 一 跳 ， 控 制 器 给 转发 器 (路 由 器 ) 发 送 的 修改 后 的 BGP 下 一 跳 最 好 选 
择 是 邻居 路 由 器 的 连接 接口 地 址 ， 比 如 , 给 路 由 器 E 下 发 的 BGP 下 一 跳 地 址 为 路 由 器 C 
的 接口 CE (C 上 连接 EE 的 接口 是 CE) 地址 ， 这 样 ， 当 CE 接口 故障 ， 选 择 的 显 式 路 径 
会 直接 失效 ， 路 由 器 E 会 重新 选择 传统 分 布 式 控制 面 的 BGP 路 由 ， 而 此 时 控制 器 感知 
这 个 故障 会 重新 计算 显示 路 径 ， 以 达到 原来 调整 路 径 的 目的 。 

RR+ 域 内 IP 显 式 路 径 的 控制 还 有 一 个 有 趣 的 应 用 ， 如 果 希 望 在 网 络 上 启动 MPLS TE 
功能 ， 前 面 讨论 过 的 PCE+ 是 合适 的 方案 ， 但 是 ， 如 果 能 够 对 卫 进行 显 式 路 径 ， 并 且 LDP 
的 LSP 生成 是 依赖 他 路 由 的 ， 基 于 这 个 人 PP 显 式 路 径 技术 ， 为 这 些 显 式 路 径 的 卫 使 能 LDP 
分 配 标签 ， 就 获得 了 一 个 和 了 P 显 式 路 径 相 同 路 径 的 MPLS 交换 路 径 ， 这 个 显 式 路 径 就 是 一 
个 非 最 短路 径 的 TE 流量 工程 路 径 了 。 当 然 ， 还 是 推荐 PCE+ 和 解决 MPLS 网 络 向 SDN 演进 。 

2. 进入 自治 系统 的 入 口 流量 控制 技术 

进入 自治 系统 的 入 口 流量 控制 技术 是 一 个 自治 系统 希望 进入 这 个 自治 系统 的 流量 
能 够 以 受 控 方式 进入 , 可 以 从 特定 的 接口 或 者 特定 自治 系统 进入 。 图 8-13 所 示 为 进入 自 
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治 系统 的 入 口 流量 控制 技术 。 





控制 器 ，RR+ 使 能 
选择 哪个 入 口 ? A 






子 网 
28.6.55.0/24 


图 8-13 进入 自治 系统 的 入 口 流量 控制 技术 


控制 器 控制 的 自治 系统 是 AS 10989， 目 标 是 能 够 控制 去 往 子 网 28.6.55/24 的 流量 是 
从 自治 系统 AS 118 还 是 从 自治 系统 AS 912 进入 ， 而 且 还 要 控制 是 从 哪个 接口 或 者 邻居 
进入 AS 10989， 比 如 可 能 希望 流量 从 AS 118 的 和 路 由 器 的 XA 接口 进入 AS 10899。 

可 以 分 解 出 两 个 基本 场景 ， 第 一 个 场景 是 从 对 端 同一 个 自治 系统 引导 流量 的 情况 ， 
如 图 8-14 所 示 。 


控制 器 ，RR+ 使 能 
7 





图 8-14 ”从 对 端 同一 个 自治 系统 引导 流量 


希望 控制 从 AS 118 去 往 子 网 28.6.55.0/24 的 流量 能 够 走 特定 接口 进入 AS 10989, 比 
如 可 能 希望 流量 走路 由 器 YY 的 YA 接口 进入 路 由 器 A， 这 种 场景 因为 内 部 有 两 台 路 由 器 
A 和 B， 三 个 接口 XA、YA、YB， 流量 可 以 走 任何 接口 进入 控制 的 自治 系统 AS 10989， 
但 是 有 时 客户 希望 能 够 控制 这 种 流量 进入 自治 系统 的 路 径 ， 一 种 基本 方法 就 是 采用 传统 
BGP 的 团体 属性 + 路 由 器 策略 来 进行 控制 。 

先 在 路 由 器 A 和 路 由 器 B 上 配置 路 由 策略 , 比如 , 路 由 器 A 上 面 路 由 策略 是 包括 A 
和 XX 的 BGP 邻居 策略 ，A 和 YY 的 BGP 邻居 策略 如 下 。 

A 和 X 的 BGP 邻居 上 配置 路 由 策略 : 

Match CommunityCOM-AX set MED 50，// 参 数 50 是 要 设置 的 MED 值 ， 假 定 所 有 的 默认 的 MED 都 是 5000， 数 小 的 

会 被 邻居 优选 ， 这 里 COM-AX 是 团体 属性 名 字 ， 是 个 参数 值 

A 和 YY 的 BGP 邻居 配置 路 由 策略 : 


Match CommunityCOM-AY set MED 50 


在 B 和 YY 的 BGP 邻居 配置 路 由 策略 ; 
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Match CommunityCOM- BY set MED 50 


这 条 配置 命令 的 意思 是 ， 在 某 条 发 送 给 某 个 BGP 邻居 的 路 由 中 ， 如 果 匹 配 到 团体 属性 
值 ， 则 把 其 MED 设置 为 要 求 的 50。MED 的 作用 是 对 端 邻 居 就 是 AS 118 中 的 X 和 YY 收 到 
路 由 会 根据 MED 的 值 进行 选 路 ， 比 如 正常 的 一 条 路 由 MED 的 默认 值 是 5000, 但 是 如 果 一 
个 邻居 发 过 来 的 路 由 指示 这 条 路 由 MED 是 50, 于 是 义 和 YY 会 选择 MED 为 50 的 那个 邻居 
发 送 流量 。 上 面 的 这 些 配置 是 预先 配置 在 路 由 器 A 和 B 上面 的 ， 并 且 是 一 次 性 配置 的 。 

然后 ， 控 制 器 根据 用 户 策略 需求 和 网 络 状态 需求 ， 会 计算 出 希望 去 往 28.6.55.0/24 
的 流量 要 走路 由 器 Y 到 路 由 器 A， 从 接口 AY (路 由 器 A 上 连接 路 由 器 Y 的 接口 ) 进入 
自治 系统 10989， 控 制 器 可 以 通过 RR 向 路 由 器 A 反射 路 由 : 


IP prefix 28.6.55.0/24 community COM-AY 


这 样 路 由 器 A 会 在 发 送 路 由 28.6.55.0/24 给 YY 时 进行 出 口 策 略 匹 配 ， 发 现 正好 匹配 
了 前 面 配置 的 COM-AY， 于 是 把 这 条 路 由 的 MED 设置 为 50。 路 由 器 A 在 给 X 发 送 
28.6.55.0/24 路 由 时 ， 由 于 没有 匹配 到 COM-AY， 所 以 什么 也 不 做 ; 而 路 由 器 B 也 是 一 
样 ， 控 制 器 并 没有 发 送 带 有 团体 属性 COM-BY 的 路 由 给 B,， 所 以 B 也 是 以 默认 MED 发 
送 路 由 28.6.55.0/24 给 路 由 器 Y。 于 是 对 于 AS 118 中 的 路 由 器 X 和 路 由 器 Y， 它 们 发 现 
前 级 28.6.55.0/24 从 路 由 器 Y 到 路 由 器 A 的 MED 最 小 ， 就 会 选择 从 YY 到 A 把 流量 转发 
进入 AS 10989。 同样 道理 , 如 果 希 望 流量 从 AX 进入 , 只 要 控制 器 给 路 由 器 A 反射 路 由 : 

IP prefix 28.6.55.0/24 community COM-AX 

如 果 希 望 流 量 从 路 由 器 B 的 BY 接口 进入 自治 系统 ,那么 只 要 控制 器 反射 路 由 器 B: 

IP prefix 28.6.55.0/24 community COM-BY 


上 面 介 绍 的 是 如 何 从 同一 个 邻居 自治 系统 向 被 控制 自治 系统 引入 流量 的 基本 工作 
原理 ,过 程 中 都 是 使 用 了 标准 BGP 行为 。 但 是 灵活 变化 的 是 用 户 策略 ， 也 就 是 计算 出 流 
量 从 哪个 路 径 进 入 系统 , 这 个 部 分 是 多 变 的 , 通过 SDN 控制 器 可 以 快速 解决 用 户 的 此 类 
多 变 策 略 问 题 ， 而 不 用 修改 任何 路 由 器 软件 。 

另外 一 个 场景 是 从 不 同 AS 向 AS 10989 引入 流量 问题 ， 比 如 从 AS 118 和 AS 912 引 
导 流 量 进入 AS 10989。 组 网 如 图 8-15 所 示 。 









控制 器 ，RR+ 使 能 
子 网 
28.6.55/24 


Ping 28.6.55.1 


图 8-15 ”从 不 同 AS 引入 流量 


比如 ，AS1 的 主机 N( 假 设 这 个 主机 N 就 是 AS1 的 出 口 ASBR 路 由 器 〉 如 果 希 望 
和 28.6.55.1 通信 ， 默 认 的 流量 可 能 走 AS 118 也 可 能 走 AS 912 进入 AS 10989。 运 营 商 
网 络 由 于 费用 结算 原因 经 常 有 这 种 需求 : 希望 能 够 控制 流量 进入 AS 10989 的 路 径 。 控 
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制 方法 其 实 和 上 面 的 MED 控制 类 似 ， 只 要 通过 控制 器 先 计 算出 到 底 希 望 流量 从 哪个 自 
治 系统 进入 AS 10989。 假 定 通过 复杂 的 用 户 策 略 计 算 ， 认 为 从 AS 118 把 流量 送 交 给 路 
由 器 A， 费 用 最 低 ， 于 是 只 要 向 路 由 器 A 和 路 由 器 B 反射 路 由 时 携带 一 个 团体 属性 ， 比 
如 叫 作 community add-AS-path912， 携 带 这 个 团体 属性 的 路 由 是 希望 控制 的 路 由 ， 比 如 
28.6.55/24。 团 体 属性 的 意图 是 要 把 携带 这 个 属性 路 由 的 AS path 加 长 ,通过 这 种 方法 ,AS 912 
收 到 的 这 个 路 由 的 AS path 会 比 AS 118 收 到 的 要 长 , 于 是 AS1 的 主机 最 后 会 选择 从 AS 118 
发 送 ， 因 为 它 发 现 该 路 由 走 AS 118 的 AS Path 比 AS 912 的 路 更 短 ，AS 1 更 长 ，AS 1 会 选 
择 AS Path 短 的 路 。 通 过 这 样 的 方法 就 完成 了 如 何 把 流量 引入 本 自治 系统 的 控制 方法 。 

3. 离开 自治 系统 的 出 口 流 量 控制 技术 

离开 自治 系统 的 出 口 流量 控制 是 希望 控制 流量 的 出 口 选择 。 出 口 流量 控制 的 组 网 如 
图 8-16 所 示 。 
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图 8-16 离开 自治 系统 的 出 口 流量 控制 技术 


当 通 信 从 子 网 28.6.55.0/24 发 起 通信 和 连接， 准备 把 报 文 发 送 给 子 网 186.0.44/24， 和 希 
望 能 够 控制 这 个 流量 , 选择 特定 的 出 口 , 比如 是 选择 AS 118 还 是 选择 AS 912 发 送 流量 。 
具体 选择 哪个 自治 系统 作为 出 口 ， 以 及 选择 哪个 接口 把 报 文 送 给 这 个 自治 系统 ， 是 控制 
器 进行 各 种 复杂 的 用 户 策略 计算 处 理 后 生成 的 。 这 里 仅仅 讨论 一 下 ， 当 这 个 结果 有 了 ， 
想 让 报 文 能 够 走 F 一 D 一 C 一 A 一 Y 的 路 径 把 去 往 网 络 186.0.44.0/24 的 报 文 送 走 ， 该 如 何 
控制 呢 ? 只 要 通过 控制 器 把 这 个 路 由 反射 给 下 面 路 由 器 的 时 候 ， 使 用 BGP 的 local 
preference 属性 ， 通 过 设置 这 个 属性 ， 路 由 器 就 会 根据 这 个 属性 进行 出 口 路 由 器 优选 ， 这 
样 达 到 了 选择 出 口 的 目的 。 如 果 希 望 对 域内 路 径 精 确 控制 ， 而 不 是 简单 地 选择 出 口 ， 那 
么 还 需要 配合 其 他 技术 ， 比 如 隧道 技术 或 者 前 面 提 到 RR+ 显 式 路 径 技术 都 可 以 。 当 报 文 
到 达 出 口 ， 路 由 器 又 是 如 何 选择 从 哪个 接口 送出 去 的 呢 ? 可 以 通过 控制 器 下 发 简单 的 路 
由 策略 + 团体 属性 控制 ， 让 路 由 器 在 出 口 选 择 时 选 定 特定 邻居 或 者 出 接口 发 送 。 

当然 ， 还 有 一 些 运营 商 的 需求 是 基于 源 地 址 和 目的 地 址 进行 流量 控制 ， 还 有 进一步 的 希 
i 这 些 需求 , 通过 RR+ 技 术 以 及 增加 一 些 VPN 技术 都 是 可 以 解决 
的 ， 但 是 控制 复杂 一 些 ， 可 能 需要 利用 BGP 的 Flowspec 特性 ， 这 个 特性 也 是 标准 特性 。 

总 之 ， 通 过 能 够 做 到 对 被 使 能 了 RR+ 的 SDN 控制 器 控制 的 网 络 进行 各 
种 流量 调整 , 无论 是 入 口 流量 调整 、 出 口 流量 调整 还 是 域内 路 径 调 整 ， 都 能 够 很 好 满足 。 
这 种 RR+ 技 术 的 特点 是 把 复杂 多 变 的 策略 计算 都 集中 到 控制 器 , 并 且 保 留 了 底层 分 布 式 
控制 网 络 , 兼容 现 网 的 各 种 协议 和 IP 转发 过 程 ,转发 器 或 者 路 由 器 不 用 升级 软件 就 可 以 
完成 对 网 络 的 控制 。 这 样 ， 当 用 户 有 新 的 卫 路 由 控制 需求 时 ， 只 要 更 新 路 由 器 上 的 用 户 
策略 处 理 模 块 ， 不 用 修改 其 他 部 分 ， 当 然 RR+ 的 适用 场景 是 现 有 存量 IP 网 络 。 
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8.6” 按 网 络 分 层 混合 组 网 


这 种 技术 通常 用 于 在 一 个 物理 网 络 上 虚拟 出 的 网 络 的 控制 ， 控 制 器 通常 只 是 控制 这 
个 虚拟 网 络 ， 而 不 对 基础 网 络 进行 控制 ， 基 础 网 络 仍然 运行 分 布 式 控制 的 传统 网 络 ， 而 
虚拟 网 络 的 路 由 和 路 径 则 全 部 由 控制 器 控制 , 所 以 也 叫 作 虚拟 网 络 控 制 (Virtual Network 
Control，VNC)， 控 制 虚拟 网 络 的 控制 器 也 叫 虚 拟 网 络 控制 器 。 在 具体 实现 上 ， 虚 拟 网 
络 控制 器 和 物理 网 络 控制 器 都 是 一 个 控制 器 产品 。 


8.6.1 虚拟 数据 中 心 技术 方案 


虚拟 网 络 控制 器 的 一 个 典型 场景 是 数据 中 心 的 Overlay 网 络 ， 数 据 中 心 为 了 解决 多 租 
户 问 题 ， 直 接 在 服务 器 上 启动 了 一 个 虚拟 交换 机 ， 也 就 是 软件 交换 机 。 著 名 的 开源 软件 交 
换 机 是 OVS 〈Open vSwitch)。 数 据 中 心 通过 这 些 软件 交换 机 构建 一 个 虚拟 网 络 ， 网 络 是 
个 二 层 子 网 , 一 个 数据 中 心 的 租户 可 以 租用 很 多 这 样 的 子 网 , 这 里 不 讨论 三 层 网 关 问 题 ， 
只 讨论 二 层 虚 拟 网 络 。 其 实数 据 中 心 的 基础 设施 有 很 多 物理 交换 机 , 也 支持 VLAN (Virtual 
LAN)。 为 什么 现在 人 们 开始 不 使 用 这 种 物理 网 络 支持 的 虚拟 网 络 VLAN 来 实现 多 租户 虚 
拟 网 络 ， 而 另外 在 服务 器 上 启动 一 个 软件 交换 机 ， 在 软件 交换 机 上 启动 虚拟 网 络 解决 多 租 
户 网 络 虚拟 化 问题 呢 ? 原因 在 于 当初 设计 VLAN 时 ，VLAN 的 ID 设计 范围 是 12bits， 那 
么 就 只 能 支持 4K 的 VLAN， 而 对 于 数据 中 心 则 需要 海量 租户 虚拟 网 络 能 力 ， 比 如 几 十 万 
上 百 万 的 虚拟 子 网 ， 这 时 VLAN 数量 就 不 够 了 。 另 外 还 有 一 个 原因 是 操作 物理 网 络 交换 
机 有 很 多 不 便 之 处 , 业务 自动 化 能 力 差 , 因为 传统 交换 机 网 络 也 是 一 个 分 布 式 控制 的 网 络 ， 
所 以 业务 配置 比较 复杂 。 于 是 ， 以 计算 、 存 储 业 务 为 中 心 的 数据 中 心 就 提出 了 软件 交换 机 
的 概念 ， 并 建立 一 个 Overlay 的 虚拟 网 络 来 支撑 数据 中 心 多 租户 需求 。 
在 服务 器 上 启动 了 软件 交换 机 可 以 解决 两 个 问题 。 第 一 ， 可 以 快速 部 署 虚拟 网 络 业 
务 ， 操 作 起 来 比较 方便 ;第 二 ， 可 以 解决 海量 虚拟 子 网 问题 。 同 时 ， 这 种 软件 交换 机 的 
出 现 使 得 可 以 不 用 任何 现在 的 物理 网 路 的 参与 就 完成 多 租户 虚拟 网 络 服务 。 数 据 中心 通 
过 物理 服务 器 提供 软件 交换 机 完成 虚拟 网 络 的 组 网 大 概 像 图 8-17 所 示 的 组 网 。 
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了 9 8-17 ”虚拟 交换 机 组 网 图 
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在 图 8-17 中 ， 每 个 物理 服务 器 都 启动 一 个 软件 交换 机 ， 分 别 命名 为 OVS1、OVS2、 
OVS3， 在 物理 服务 器 上 也 都 虚拟 出 了 很 多 虚拟 机 ， 比 如 物理 服务 器 1 虚拟 出 来 VMI 
(Virtual Machine， 虚 拟 机 ， 可 以 理解 就 是 一 台独 立 计 算 机 ， 拥 有 和 独立 计算 机 同样 的 硬 
件 资源 和 操作 系统 。 不 过 硬件 资源 都 是 虚拟 出 来 的 ， 运 行 在 虚拟 机 上 的 软件 和 物理 服务 
器 上 的 软件 由 于 有 操作 系统 的 隔离 ， 所 以 完全 不 感知 底层 是 虚拟 机 还 是 物理 服务 器 )、 
VM2、VM3， 而 物理 服务 器 2 也 虚拟 出 虚拟 机 VM4，VM5、VM6。 这 样 ， 通 过 控制 器 
给 OVS 下 发 转发 表 就 可 以 形成 虚拟 网 络 ， 但 OVS 是 一 个 软件 交换 机 ， 其 行为 和 物理 交 
换 机 是 一 样 的， 物理 交 换 机 采用 VLAN 来 实现 虚拟 网 络 ， 那 么 OVS 采用 什么 技术 来 实 
现 虚 拟 网 络 呢 ? 在 IETF 定义 了 NOV3 标准 ， 其 中 主要 采用 VXLAN 技术 和 NVGRE 技 
术 之 一 作为 虚拟 网 络 技 术 。 在 VXLAN 技术 中 ，VXLAN 封装 中 有 一 个 VNI (Virtual 
Network ID)， 这 个 数据 是 一 个 24bits 的 ID， 用 于 区 分 虚拟 网 络 ， 那 么 本 质 上 在 一 对 服 
务 器 之 间 ， 就 可 以 创建 多 达 1600 百 万 的 子 网 ， 当 然 通 常 使 用 VNIID 在 网 络 中 标记 某 个 
子 网 ， 而 不 是 按 服务 器 对 来 区 分 ， 就 是 在 一 个 管理 域 不 管 哪些 服务 器 之 间 的 VXLAN 隧 
道 , 只 要 VNIID 相同 都 认为 是 一 个 子 网 。 VXLAN 技术 是 把 VM 发 送 的 以 太 报 文 连同 以 
太 头 , 采用 了 VXLAN 封装 后 ， 再 通过 封装 UDP 报 文 ， 以 便 把 里 面 封装 的 以 太 报 文 送 到 
对 端的 物理 服务 器 。 其 报 文 封装 基本 格式 是 如 图 8-18 所 示 。 





图 8-18 VXLAN 报 文 封装 格式 


上 面 报 文 的 外 层 中 头 里 面 的 人 地 址 是 服务 器 的 或 者 说 是 OVS 的 卫 地 址 ，OVS 的 这 些 
了 P 地 址 通过 物理 交换 网 络 是 可 以 通信 和 的， 内 层 全 头 里 面 的 卫 地 址 是 虚拟 机 的 卫 地 址 , 这 些 
IP 地 址 直接 在 物理 交换 机 网 络 中 通常 是 不 能 互相 通信 和 的， 它们 是 虚拟 网 络 里 面 的 人 P 地 址 ， 
VXLAN 头 中 的 VNI 指示 内 部 的 以 太 报 文 属于 哪个 虚拟 网 络 ， 而 外 层 的 人 P 则 指示 要 把 报 文 
送 交 给 哪个 OVS 或 者 是 物理 服务 器 。 当 对 端 物理 服务 器 收 到 这 个 报 文 ， 会 把 UDP 前 面 的 报 
文 头 去 封装 ， 然 后 发 现 是 VXLAN 报 文 ， 交 给 OVS 处 理 ，OVS 则 根据 VNI 在 本 地 的 VNI 
路 由 表 查 找 MAC 路 由 表决 定 该 送 给 哪个 VM。 整 个 通信 过 程 中 最 重要 的 两 个 数据 包括 ; 

@ 一 个 以 太 报 文 进入 OVS，OVS 必须 确定 它 是 属于 哪个 子 网 的 ， 这 是 根据 VNIID 
确定 的 ; 

@ OVS 必须 要 知道 该 把 这 个 报 文 送 交 给 另外 的 哪个 OVS, 是 要 查找 MAC 路 由 表 ， 
并 根据 MAC 地 址 和 VNI 查找 到 UDP 封装 所 需 的 目的 了 P 地 址 。 

所 有 这 些 数据 都 是 控制 器 生成 和 下 发 给 转发 器 的 。 一 旦 完成 UDP 报 文 的 封装 ， 这 
个 报 文 在 物理 交换 机 网 络 上 转发 就 是 普通 的 服务 器 之 间 的 一 个 通信 ， 物 理 交 换 机 网 络 如 
何 建立 通信 ， 则 完全 是 传统 分 布 式 网 络 的 任务 了 。 所 以 数据 中 心 的 控制 器 是 完成 虚拟 网 
络 的 集中 控制 , 并 没有 对 物理 网 络 进行 控制 , 所 以 通常 我 们 说 这 是 一 个 虚拟 网 络 控制 器 ， 
并 不 是 说 我 们 不 能 用 控制 器 对 物理 交换 机 网 络 进行 控制 ， 而 是 在 这 个 应 用 场景 没有 必要 
去 控制 物理 网 络 或 者 不 想 去 控制 。 

再 看 看 这 种 网 络 的 缺点 。 这 种 网 络 要 在 OVS 之 间 建 立 点 到 点 的 VXLAN 隧道 ， 那 
么 OVS 软件 交换 机 就 不 能 在 数据 面 用 传统 交换 机 的 MAC 广播 方式 学 习 MAC 路 由 。 因 
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为 隧道 数量 很 多 ， 没 有 硬件 支持 的 广播 复制 会 严重 影响 性 能 ， 比 如 如 果 向 100 个 OVS 
复制 广播 ， 就 意味 着 要 把 广播 报 文 复制 100 次 向 每 个 OVS 发 送 。 在 物理 交换 机 网 络 ， 工 
作 原 理 是 在 一 个 VLAN 的 所 有 接口 〈 但 不 包括 入 接口 和 阻 断 端口 ) 进行 广播 ， 而 且 是 物 
理 硬件 支持 。 而 广播 通常 是 ARP 协议 必需 的 过 程 ， 现 在 解决 问题 的 办 法 是 把 ARP 放 在 
控制 器 处 理 ， 不 在 数据 面 进行 广播 ， 避 免 性 能 下 降 。OVS 本 身 已 经 占用 了 服务 器 的 计算 
资源 ， 如 果 广 播 也 在 OVS 实现 ， 那 将 无 法 接受 。 另 外 一 个 问题 是 QoS 问题 无 法 解决 ， 
因为 QoS 需要 在 物理 交换 机 网 络 上 也 要 提供 QoS, 但 是 封装 VXLAN 后 的 报 文 ， 物 理 交 
换 机 网 络 无 法 处 理 。 另 外 ， 组 播 问 题 也 无 法 像 传统 网 络 那样 去 完成 ， 组 播 在 传统 网 络 是 
交换 机 硬件 支持 组 播 ， 而 OVS 无 法 提供 硬件 组 播 能 力 ， 只 能 软件 复制 ， 性 能 下 降 严 重 。 
此 外 ， 还 有 其 他 问题 ， 例 如 ， 由 于 完全 是 Overlay 网 络 ， 不 能 为 某 些 子 网 选择 特定 的 物 
理 交换 路 径 而 提供 更 好 的 服务 。 总 之 ，Overlay 网 络 存在 不 少 问题 。 其 中 ， 最 主要 的 问题 
是 ，OVS 消耗 了 计算 机 的 计算 资源 ， 这 是 不 划算 的 。 有 一 个 替代 的 方案 一 一 把 OVS 的 
功能 卸载 到 物理 交换 机 TOR 上 面 来 完成 。TOR 模型 虚拟 网 络 组 网 如 图 8-19 所 示 。 
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图 8-19 TOR 模型 虚拟 网 络 组 网 


此 时 每 个 VM 通过 一 个 本 地 VLAN 接 入 到 TOR (Top of Rack， 服 务 器 接 入 物理 交 
换 机 网 络 的 第 一 个 接 入 物理 交换 机 ， 位 于 服务 器 机 架 的 上 面 位 置 ， 所 以 叫 TOR)， 然 后 
在 TOR 上 面 发 起 VXLAN。 这 种 架构 能 够 有 效 地 解决 OVS 的 数据 封装 、 转 发 等 工作 对 
计算 资源 的 消耗 问题 ， 同 时 把 网 络 和 计算 进行 了 解 厢 ， 使 得 服务 器 无 论 是 在 业务 还 是 在 
管理 上 都 不 用 关心 网 络 的 事情 ， 网 络 的 工作 都 交 给 网 络 设备 完成 ， 两 个 部 分 可 以 独立 进 
行 改进 。 

当然 我 们 同样 希望 通过 控制 器 控制 VXLAN 虚拟 网 络 ， 解 决 广播 问题 。 此 时 这 个 
TOR 叫 作 VXLAN 网 关 。 它 要 完成 从 VLAN 接 入 到 VXLAN 网 络 的 功能 ， 进 行 了 二 层 
网 络 VLAN 到 二 层 网 络 VXLAN 的 一 个 交换 。 在 数据 中 心中 ， 有 一 个 场景 必须 要 这 个 
VXLAN 网 关 功 能 ， 因 为 当 数 据 中 心虚 拟 化 的 时 候 ， 网 络 中 可 能 会 有 一 些 物理 服务 器 ， 
这 些 物理 服务 器 不 是 虚拟 化 的 ， 而 是 通过 VLAN 连接 到 物理 交换 机 网 络 ， 这 些 物理 服务 
器 也 会 和 前 面 的 VXLAN 网 络 中 的 VM 部 署 在 同一 个 子 网 ， 那 么 就 需要 一 个 VXLAN 网 
关 ， 把 物理 机 所 在 的 VLAN 和 VXLAN 互通 ， 通 常 也 是 用 VLAN 到 VXLAN 的 转换 网 
关 功 能 。 
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除了 上 面 讨论 的 控制 器 需要 完成 ARP 协议 处 理 , 计算 虚拟 网 络 MAC 地 址 路 由 功能 
外 ， 还 有 一 个 问题 需要 控制 器 解决 ， 那 就 是 虚拟 接 入 感知 。 虚 拟 接 入 感知 可 以 解决 VM 
的 移动 性 问题 ， 该 功能 是 为 了 动态 感知 VM 的 位 置 ， 因 为 北向 业务 接口 下 发 给 控制 器 的 
数据 是 哪个 VM 属于 哪个 虚拟 网 络 ，VM 通常 以 MAC 地 址 作为 标记 ， 于 是 控制 器 只 是 
知道 这 个 VM 的 MAC 属于 某 个 虚拟 网 络 ， 虚 拟 网 络 当 然 通常 用 VNI 标记 ， 但 是 并 不 知 
道具 体 的 这 个 VM 的 接 入 位 置 ， 需 要 使 用 虚拟 接 入 感知 技术 来 完成 位 置 定位 。 通 常 的 感 
知 协议 会 通过 感知 ARP 请 求 或 者 DHCP 请 求 来 获得 VM 的 MAC 所 在 位 置信 息 , 一 旦 完 
成 位 置 定 位 ， 控 制 器 会 为 这 个 VM 所 述 的 虚拟 网 络 的 其 他 交换 机 (OVS/TOR) 生成 对 应 
的 转发 表 ， 以 便 其 他 VM 能 够 和 这 个 新 接 入 网 络 的 VM 进行 通信 。 

整体 上 ， 在 数据 中 心虚 拟 网 络 控制 器 要 提供 虚拟 网 络 的 控制 功能 ， 这 些 控制 功能 包 
括 : 位 置 感知 、MAC 地 址 路 由 、 消 除 广播 的 ARP 处 理 等 。 这 个 过 程 中 ， 控 制 器 是 在 控 
制 Overlay 网 络 的 数据 ， 也 就 是 虚拟 网 络 的 转发 表 数据 的 生成 ， 所 以 也 叫 这 个 控制 器 是 
虚拟 网 络 控制 器 。 这 种 情况 下 ， 一 个 网 络 控制 器 控制 所 有 的 虚拟 网 络 的 路 由 ， 也 就 是 所 
有 租户 的 网 络 路 由 都 是 这 个 控制 器 计算 的 。 


8.6.2 iVPN 技术 方案 


iVPN 技术 方案 是 为 了 解决 WAN 网 络 中 VPN 的 集中 控制 问题 。 这 里 的 控制 器 仅仅 
对 VPN 的 路 由 进行 控制 ， 而 不 对 VPN 的 网 络 侧 的 交换 路 径 进行 控制 。 因 为 网 络 内 部 的 
交换 路 径 的 计算 可 以 通过 类 似 PCE+ 技 术 来 解决 ， 前 面 已 经 介绍 过 了 。iVPN 技术 主要 的 
价值 在 于 VPN 业务 的 自动 化 , 同上 面 一 样 需要 实现 接 入 感知 技术 来 进行 位 置 定位 , 支持 
VPN 移动 性 ， 其 基本 原理 如 图 8-20 所 示 。 这 里 以 L3VPN 为 例 ， 介 绍 运营 商 未 来 如 何 用 
iVPN 技术 完成 类 似 电 商 销售 商品 的 无 人 干预 销售 和 开通 VPN 业务 ， 运 营 商 利用 该 技术 
可 以 把 业务 放 到 电 商 销售 。 
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图 8-20 ”iVPN 工作 过 程 


基本 架构 有 几 个 部 分 。 一 个 是 控制 器 , 控制 器 能 够 提供 L3VPN 服务 , 运营 商 的 APP 
调用 这 个 服务 创建 L3VPN 实例 ， 控 制 器 往 下 部 分 大 家 都 熟悉 ， 就 是 转发 器 。 转 发 器 在 
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这 种 场景 下 都 是 PE (Provider Edge， 网 络 边缘 业务 路 由 器 )， 是 传统 L3VPN 的 PE， 然 
后 是 客户 VPN 的 CE 设备 。 控 制 器 上 面 有 一 个 运营 商 APP， 运 营 商 APP 主要 完成 用 户 
业务 销售 和 业务 管理 ， 比 如 ， 可 以 是 一 个 运行 在 淘宝 或 者 天 猫 商城 里 面 的 L3VPN 销售 
程序 ， 这 个 程序 中 有 库存 管理 ， 主 要 是 网 络 中 还 有 多 少 带 宽 、 什 么 资源 等 信息 。 男 外 ， 
这 个 运营 商 APP 还 要 完成 客户 VPN 业务 管理 , 管理 客户 订购 VPN 的 各 种 参数 ， 比 如 接 
入 几 个 设备 ， 每 台 设 备 的 接 入 ID、 密 钥 等 信息 ; 也 负责 计 费 ， 比 如 有 人 购买 VPN， 这 
个 部 件 要 完成 费用 计算 。 运营 商 应 用 程序 客户 端 有 几 个 作用 ,可 以 从 运营 商 APP 里 面 查 
看 自己 的 业务 状态 或 者 下 订单 购买 VPN， 或 者 修改 订单 、 注 销 VPN 等 功能 。 

下 面 分 析 整 个 iVPN 工作 的 过 程 。 首 先 运 营 商 的 客户 希望 购买 一 个 L3VPN 服务 , 并 
且 有 两 个 接 入 站 点 ， 于 是 这 个 客户 通过 APP 客户 端 下 订单 ， 并 填写 订单 数据 ， 包 括 以 下 
信息 。 

Q@ VPN 信息 : HUAWEI-RD， 开 通 时 间 要 求 、 大 致 地 理 位 置 、 联 系 电 话 等 。 

@ 接 入 站 点 1 信息 : 

(a) 接 入 网 关 了 IP 地 址 (IP=10.0.2.1/24, 就 是 以 前 PE 上 配置 的 私 网 接口 上 的 耳 地址， 
这 本 来 就 是 一 个 客户 的 网 络 地 址 ， 以 前 是 运营 商 代为 管理 配置 。 这 个 地 址 和 客户 CE 连 
接 PE 的 接口 地 址 要 在 同一 个 子 网 ， 比 如 对 应 的 CE 的 连接 接口 IP 客户 可 以 自己 配置 为 
IP=10.0.2.2/24， 但 后 面 这 个 IP 地 址 信息 客户 自己 维护 就 好 ， 不 用 在 订单 中 填写 )。 

(b) 该 站 点 所 有 的 子 网 前 级 ， 比 如 包括 


10.0.0/24, 
10.0.1/24 


(c) 接 入 带宽 需求 ， 比 如 10Mbit/s。 

@ 然后 是 接 入 站 点 2 〈CE2) 的 信息 : 

(a) 接 入 网 关 IP 地址 (IP=10.0.3.1/24, 就 是 以 前 PE 上 配置 的 私 网 接口 上 的 IP 地 址 ， 
这 本 来 就 是 一 个 客户 的 网 络 地 址 ， 以 前 是 运营 商 代为 管理 ,这 个 地 址 和 CE 的 连接 PE 接 
口 地 址 要 在 同一 个 子 网 ， 客 户 本 地 接 入 CE2 的 一 个 接口 地 址 IP=10.0.3.2/24，10.0.3.2 地 
址 使 用 户 配置 在 自己 的 CE 设备 接口 上 的 ， 不 用 在 订单 填写 )。 

(b) 该 站 点 所 有 的 子 网 前 级 ， 比 如 包括 


10.1.0/24, 
10.1.1/24 


(c) 接 入 带宽 需求 ， 比 如 20Mbit/s。 

客户 完成 这 个 过 程 后 ， 把 这 些 数据 发 送 给 运营 商 APP。 这 个 过 程 就 如 同 在 淘宝 网 上 
提交 一 个 订单 数据 需要 提交 订购 数量 和 订购 规格 等 数据 。 这 些 数据 一 旦 进入 到 这 个 运营 
商 APP, 运营 商 APP 会 计算 出 费用 ， 并 分 配 出 接 入 站 点 1 的 用 户 接 入 ID 和 密码 以 及 接 入 
站 点 2 的 用 户 接 入 ID 和 密码 ， 并 反馈 给 APP 客户 端 。 如 果 这 个 用 户 接 受 这 些 费 用 ， 就 可 
以 下 订单 了 ， 并 记录 返回 的 用 户 接 入 ID 和 密码 。 这 些 信 息 会 与 上 面 的 接 入 站 点 1 和 接 入 
站 点 2 绑 定 ， 比 如 对 于 接 入 站 点 1 的 ID=CE1, 密码 =y1A2N3456, 接 入 站 点 2 的 ID=CE2， 
密码 =1Pa2nM4f6。 未 来 CE 接 入 PE 时 ，CE 需要 向 网 络 提供 这 些 认证 信息 。 这 样 ， 运 营 
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商 客户 已 经 完成 了 一 笔 L3VPN 商品 销售 的 下 订单 过 程 。 

客户 下 了 订单 ， 购 买 了 商品 ， 接 下 来 要 发 货 了 。 发 货 走 物流 ， 快 递 把 商品 送 给 客户 
那里 ， 才 算 真正 地 完成 订单 履行 。 这 里 销售 的 L3VPN 是 个 服务 商品 ， 所 以 要 提供 服务 
给 客户 。 下面 是 物流 过 程 : 后 台 开 始 联系 VPN 客户 , 确认 客户 接 入 站 点 位 置 ， 确认 运营 
商 有 接 入 线 绕 连接 到 对 方 的 办 公 室 ， 如 果 没 有 现成 的 接 入 线路 ， 则 安排 施工 布线 ， 一 旦 
布线 完成 ， 其 实 此 时 物流 工作 就 完成 了 。 这 个 过 程 是 物流 过 程 ， 显 然 需 要 人 工 干预 ,不 
像 前 面 销 售 L3VPN 那个 时 候 可 以 在 无 人 干预 下 完成 。 

当 客 户 确 认 订 单 后 ， 运 营 商 APP 会 把 上 述 所 有 客户 订单 中 的 数据 信息 发 送 给 控制 
器 。 与 计 费 相关 的 信息 、 电 话 信息 等 不 需要 给 控制 器 ， 只 要 给 VPN 名 字 、 接 入 站 点 接 入 
ID 和 密码 、 网 关 卫 这 三 部 分 信息 。 控 制 器 此 时 什么 都 不 做 。 上 面 物流 也 完成 了 ， 客 户 
已 经 知道 哪个 是 自己 订购 的 服务 接 入 线路 了 ， 然 后 是 开始 使 用 商品 过 程 了 。 客 户 首先 要 
有 自己 的 CE 设备 ， 比 如 站 点 1 的 CE1， 客 户 开始 配置 这 个 CE 的 接 入 以 太 口 地 址 : 


IP address=10.0.2.2/24 

接 入 用 户 ”ID=CE1 

密码 =y1A2N3456 

配置 静态 路 由 

JP route 10.1.0/24 nexthop 10.0.2.1//10.1.0/24 是 站 点 2 的 前 级 ，10.0.2.1 是 接 入 PE1 的 网 关 地 址 

卫 route 10.1.1/24 nexthop 10.0.2.1//10.1.0/24 是 站 点 2 的 前 缀 ，10.0.2.1 是 接 入 PE1 的 网 关 地 址 

然后 客户 就 可 以 把 这 个 CE1 的 以 太 口 连接 到 运营 商 物流 给 他 拉 的 那 根 线路 了 。 这 样 
运营 商 网 络 就 会 收 到 对 端 发 起 的 一 个 认证 请 求 , 不管 是 PPPoE 还 是 802.1x， 反正 这 个 认 
证 协议 会 把 用 户 ID 和 密码 带 上 来 进行 认证 。PE1 路 由 器 本 地 无 法 认证 这 个 数据 , 它 会 把 
这 个 数据 送 交 给 控制 器 。 在 送 交 控制 器 的 时 候 ，PE1 会 把 CE1 接 入 的 接口 信息 ， 比 如 是 
Portl/vlanl 信息 ， 同 时 上 报 给 控制 器 。 这 个 过 程 非常 重要 ,原因 是 这 个 客户 的 CE1 接 入 
到 网 络 的 哪个 接口 ， 控 制 器 并 不 清楚 ， 直 到 这 个 CE1 发 起 认证 ， 才 感知 到 这 个 CE1 的 
位 置信 息 具体 在 哪个 PE 的 哪个 端口 。 这 个 过 程 是 虚拟 接 入 感知 过 程 。 控 制 器 获得 这 个 
位 置信 息 之 后 , 后 续 为 这 个 VPN 生成 流 表 都 是 根据 这 个 实际 的 网 络 接 入 端口 生成 的 。 控 
制 器 根据 用 户 ID 和 密码 送 给 认证 中 心 认 证 ， 认 证 通过 后 查询 当初 运营 商 APP 送 给 他 的 
用 户 订单 数据 ,获得 该 用 户 的 所 有 信息 ， 比 如 就 是 VPN HUAWEI-RD 的 订单 信息 ， 于 是 
此 时 的 控制 器 会 一 个 方面 返回 给 PE 认证 成 功 ， 准 许 接 入 ， 同 时 控制 器 开始 为 这 个 PE1 
下 发 VPN 转发 路 由 表 。 在 PE1 上 会 有 这 样 的 路 由 信息 : 

VRF-ID=10989 IP Prefix =10.0.0/24 nexthop=10.0.2.2 outIf=portl/vlanl 


VRF-ID=10989 IP Prefix =10.0.1/24 nexthop=10.0.2.2 outIf=portl/vlanl 
/假定 VRF-Name= HUAWEI-RD 的 VRF-ID=10989， 其 中 10.0.2.2 是 CE1 的 接 入 接口 下 


这 个 路 由 表 中 添加 了 两 条 路 由 ， 这 两 个 卫 前 绥 正 是 VPN 客户 当初 下 订单 时 告诉 给 
运营 商 APP 的 , 指定 了 接 入 站 点 1 有 这 两 个 卫 子 网 ,然后 运营 商 APP 告诉 了 控制 器 的 。 
此 时 ， 控 制 器 就 为 这 个 VPN 生成 了 两 条 路 由 ， 出 接口 就 是 站 点 1 的 接 入 PE1 的 接口 
Portl/vlan1， 这 个 接口 信息 是 PE1 上 报 给 控制 器 的 。 当 然 ， 同 时 还 会 生成 Portl/vlanl 的 
IP 地 址 配置 ， 该 地 址 就 是 当初 VPN 客户 指定 的 网 关 地 址 10.0.2.1。 

当 运 营 商 的 VPN 客户 把 第 二 个 接 入 站 点 2 (CE2) 也 接 入 到 网 络 中 的 时 候 ， 控 制 器 
完成 同样 的 工作 ， 而 且 还 会 把 两 个 PE 上 面 各 自 的 VPN 路 由 计算 出 来 并 生成 业务 路 由 表 
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加 载 到 PE1 和 PE2， 同 时 在 PE1 一 PE2 之 间 建 立 一 个 隧道 ， 这 个 隧道 可 以 是 控制 器 建立 
的 ， 也 可 以 不 是 。 本 例假 定 不 用 控制 器 建立 ， 控 制 器 仅仅 为 PE1/PE2 中 的 VPN 
HUAWEI-RD 的 VRF 生成 路 由 和 VPN 标签 就 可 以 了 。 

在 VPN 客户 的 第 二 个 站 点 CE2 接 入 时 , 控制 器 为 PE2 会 生成 本 地 指向 CE2 的 路 由 
如 下 : 

VRF-ID=10989 IP Prefix =10.1.0/24 nexthop=10.0.3.2 outIf=portl/vlanl 


VRF-ID=10989 IP Prefix =10.1.1/24 nexthop=10.0.3.2 outIf=portl/vlanl 
// 假 定 VRF-Name= HUAWEI-RD 的 VRF-ID=10989,10.0.3.2 是 CE2 的 接 入 接口 下 


同样 ， 这 些 路 由 前 缀 信息 也 是 当初 VPN 客户 下 订单 指定 的 信息 ， 因 为 VPN 客户 告 
诉 运营 商 APP 他 在 站 点 2 有 两 个 子 网 ， 前 级 是 10.1.0/24 和 10.1.1/24。 

现在 PE1 和 CEl1 之 间 、PE2 和 CE2 之 间 的 路 由 都 生成 了 ， 所 以 它们 可 以 互相 人 P 通 
信 了 。 此 时 控制 器 还 需要 完成 的 工作 就 是 要 在 两 个 PE 之 间 交 换 VPN 路 由 ,传统 分 布 式 
网 络 需 要 PE 之 间 运 行 MP-BGP 来 生成 路 由 ， 而 现在 不 需要 了 ， 因 为 控制 器 会 为 两 个 PE 
生成 这 个 VPN HUAWEI-RD 的 路 由 。 

PE1 的 VPN HUAWEI-RD 内 的 路 由 如 下 : 

VRF-ID=10989 IP Prefix =10.0.0/24 nexthop=10.0.2.2 outI 全 portl/vlanl 

VRF-ID=10989 IP Prefix =10.0.1/24 nexthop=10.0.2.2 outlf=portl/vlanl 


VRF-ID=10989 IP Prefix =10.1.0/24 nextHop PE2, Lalel =118912 
VRF-ID=10989 IP Prefix =10.1.1/24 nextHop PE2, Lalel=118912 


PE1 的 VPN HUAWEI-RD 内 的 路 由 如 下 : 


VRF-ID=10989 IP Prefix =10.1.0/24 nexthop=10.0.3.2 outIf=portl/vlanl 
VRF-ID=10989 IP Prefix =10.1.1/24 nexthop=10.0.3.2 outIf=portl/vlanl 
VRF-ID=10989 IP Prefix =10.0.0/24 nextHop PE1，Lalel =118912 
VRF-ID=10989 IP Prefix =10.0.1/24 nextHop PE1，Lalel =118912 


前 面 说 过 ，PE1 和 PE2 之 间 的 隧道 可 以 预先 建立 ， 也 可 以 控制 器 建立 。 

现在 ，VPN HUAWEI-RD 的 CE1 和 CE2 可 以 通过 VPN 进行 通信 ， 因 为 整个 IP 网 
络 路 由 都 已 经 打通 。 

这 里 顺便 说 一 下 , 如 果 客 户 对 于 PE 之 间 的 隧道 不 想 采 用 类 似 TE (流量 工程 ) 技术 ， 
比如 要 求 PE 之 间 的 隧道 必须 多 少 带 宽 或 者 如 何 进行 绕 路 ， 如 果 没 有 这 些 需 求 ， 在 传统 
组 网 中 , 会 使 用 LDP 来 建立 PE 之 间 的 隧道 。LDP 隧道 本 身 就 是 依赖 IGP 的 最 短路 径 建 
立 的 ， 既然 没 有 TE 需求 ,那么 其 实 没 有 必要 部 团 LDP。 建 议 采 用 类 似 GRE 或 者 VXLAN 
技术 作为 隧道 ， 这 种 隧道 也 是 走 最 短路 径 的 ， 但 是 避免 了 协议 配置 和 维护 的 复杂 度 。 可 
能 有 人 说 VXLAN 隧道 封装 性 能 没有 MPLS 封装 性 能 高 ， 其 实 没 有 必要 担心 ， 因 为 现在 
的 隧道 封装 都 是 采用 NP (网 络 处 理 器 Network processor) 或 者 ASIC 而 不 是 CPU 完成 
的 , 所 以 封装 UDP 头 和 封装 一 个 标签 在 性 能 上 不 会 有 什么 区 别 。 当 然 客户 也 可 以 根据 自 
己 网 络 实际 情况 定义 网 络 内 部 的 隧道 技术 。 

再 看 一 下 ， 如 果 此 时 VPN 客户 的 办 公 室 搬 家 ， 从 A 地 搬家 到 了 B 地 ， 那 么 ， 如 上 
面 描述 的 过 程 ， 客 户 重要 的 是 需要 申请 物流 ， 就 是 需要 在 B 地 有 一 个 接 入 运营 商 网 络 的 
线路 。 一 旦 这 个 线路 有 了 ，VPN 客户 自己 把 A 地 的 CE1 搬 到 B 地 ， 然 后 直接 连接 到 线 
路 上 ，CE1 和 CE2 之 间 又 就 可 以 通信 了 。 这 个 过 程 中 , 运营 商 除 了 安排 物流 布线 到 B 地 
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外 ， 什 么 也 不 需要 做 ;VPN 客户 除了 要 求 布 线 外 也 什么 也 没有 做 ， 但 是 客户 的 VPN 确 
实 就 连通 了 。 这 是 如 何 做 到 的 呢 ? 看 看 前 面 的 CE1 和 CE2 接 入 站 点 的 过 程 会 发 现 ， 搬 
家 后 CE1 接 入 到 某 个 新 的 PE1'， 这 个 PE1' 走 了 原来 PE1 完全 一 样 的 过 程 ， 为 这 个 VPN 
客户 生成 路 由 。 这 就 是 iVPN 技术 的 VPN 移动 性 能 力 , 或 者 叫 作 移动 VPN (Roam VPN) 
技术 。 

回顾 一 下 iVPN 整个 过 程 ， 运 营 商 除了 物流 工作 其 他 的 什么 都 不 用 做 ， 当 然 运 营 商 
APP 销售 VPN 时 需要 接受 客户 咨询 ， 所 以 需要 有 个 客服 回答 问题 ， 但 没有 其 他 人 工 介 
入 了 。 但 是 运营 商 却 销售 一 个 VPN 业务 挣 到 了 钱 ; 运营 商 客户 也 仅仅 是 自己 在 家 里 填写 
了 一 个 订单 ， 然 后 把 自己 的 设备 连接 到 线路 上 ， 这 些 设 备 之 间 就 能 够 互通 了 。 看 看 这 个 
过 程 ， 运 营 商 的 VPN 客户 很 满意 ， 因 为 业务 开通 很 快 ， 也 没有 什么 审批 手续 ， 就 像 在 淘 
宝 网 上 买 图 书 一 样 方便 。 而 运营 商 也 很 满意 ， 运 营 商 只 是 在 淘宝 网 上 开 了 个 店 ， 雇 用 了 
一 个 客服 ， 然 后 就 有 人 给 钱 买 VPN 服务 。 物 流 是 运营 商 雇用 过 来 帮 他 布线 的 员工 ,通常 
是 必须 的 。 这 个 过 程 比 现在 VPN 业务 销售 过 程 要 美妙 得 多 ， 所 以 iVPN 技术 才 是 未 来 的 
方向 ,也 是 SDN 价值 的 体现 。 类 似 的 iVPN 技术 模式 的 网 络 业务 的 销售 和 服务 过 程 应 该 
是 未 来 的 方向 ， 而 其 背后 的 支撑 技术 就 是 SDN。 

在 iVPN 中 , 运营 商 APP 和 客户 端 中 还 可 以 增加 一 些 交互 数据 ， 比 如 运营 商 的 VPN 
客户 可 以 通过 客户 端 进 行 订单 的 修改 ,比如 增加 一 些 站 点 或 者 为 站 点 增加 一 些 路 由 前 绥 ， 
这 些 信息 同样 地 都 会 通过 运营 商 APP 下 发 给 控制 器 。 比 如 增加 路 由 前 级 ,控制 器 获得 这 
些 信息 会 即刻 生成 VPN 路 由 发 给 相关 PE。 客 户 端 也 可 以 修改 接 入 路 由 方式 ， 不 采用 静 
态 路 由 而 是 采用 BGP 方式 ， 这 些 都 是 VPN 客户 自己 进行 规划 和 配置 的 ， 运 营 商 并 不 需 
要 像 以 前 一 样 去 关心 这 些 事情 。 

因为 iVPN 技术 主要 是 控制 VPN 网 络 路 由 而 不 是 控制 物理 网 络 ， 所 以 也 算是 一 种 
Hybrid 组 网 模式 ， 就 是 虚拟 网 络 控制 器 ， 仅 仅 控 制 VPN 网 络 。 


8.6.3 网 络 切 片 方案 


网 络 切片 方案 有 几 种 典型 思路 ， 其 中 一 种 思路 是 对 网 络 设备 进行 虚拟 化 ， 这 样 每 台 
设备 都 虚拟 化 成 多 台 设 备 ， 比 如 是 VR“〈 虚 拟 路 由 器 ，Virtual Router)， 然 后 在 网 络 中 把 
一 组 VR 以 及 分 配给 这 些 VR 的 接口 互联 为 一 个 虚拟 网 络 ， 选 择 一 部 分 这 样 的 虚拟 网 络 
交 给 控制 器 控制 ， 而 其 他 的 虚拟 网 络 仍 然 保 留 传统 分 布 式 控制 ， 这 样 运营 商 可 以 把 一 部 
分 业务 部 署 在 控制 器 控制 的 SDN 网 络 之 上 。 这 种 思路 存在 一 个 严重 问题 : 路 由 器 支持 的 
VR 数量 非常 有 限 ， 通 常 不 会 超过 几 十 个 ， 很 多 厂家 仅仅 支持 4 个 或 者 8 个 VR， 虚 拟 网 
络 就 无 法 满足 实际 商用 部 署 ， 同 样 受 限 的 还 包括 网 络 中 的 链 路 如 何 进行 虚拟 化 ， 不 可 能 
按照 物理 链 路 分 配给 虚拟 网 络 ， 无 论 如 何 也 没有 那么 多 物理 链 路 进行 分 配 ， 于 是 就 需要 
进行 逻辑 链 路 划分 。 逻辑 链 路 划分 比如 通过 VLAN 划分 或 者 其 他 一 些 隧道 技术 划分 ， 这 
些 划分 方法 在 实际 使 用 过 程 中 的 带宽 分 配 和 带宽 保证 又 存在 严重 不 足 ， 不 如 采用 上 面 的 
iVPN 技术 实现 虚拟 网 络 具 有 商用 部 署 价值 。 不 过 这 种 方式 也 算是 一 种 虚拟 网 络 控制 ， 
因为 也 是 一 种 混合 控制 的 思路 。 

当然 还 有 一 种 思路 是 基于 接口 进行 虚拟 网 络 划 分 ， 把 一 部 分 接口 划 为 一 个 虚拟 网 
络 ， 把 这 个 虚拟 网 络 采用 SDN 架构 ， 这 些 接口 都 是 边缘 业务 接 入 接口 ， 如 上 面 介绍 的 
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CE 接 入 PE 的 接口 ， 而 内 部 通过 隧道 技术 来 实现 网 络 内 部 的 交换 网 虚拟 化 。 这 种 思路 类 
似 iVPN 技术 ， 但 是 稍微 需要 做 一 些 改变 。iVPN 技术 中 的 L3VPN 要 在 PE 上 保存 客户 
IP 路 由 ， 运 营 商 提供 的 是 三 层 服务 ， 如 果 修 改 一 下 ， 让 运营 商 提供 专线 服务 ， 提 供 专线 
服务 可 以 采用 L2VPN 的 PW 的 iVPN 技术 (当然 ， 除 了 提供 PW 和 L3VPN 的 iVPN 服 
务 外 ， 还 可 以 提供 类 似 VPLS 的 iVPN 服务 )， 总 体 思 路 都 和 上 面 的 L3VPN 的 iVPN 技 
术 一 样 ， 可 以 大 大 地 降低 业务 开通 时 间 和 提高 业务 自动 化 水 平 ， 降 低 人 工 成 本 。 


8.6.4 业务 链 


业务 链 (Service Function Chain，SFC) 方案 算是 一 个 四 层 路 由 方案 。 为 什么 说 是 四 
层 路 由 方案 呢 ? 网 络 通信 ， 有 二 层 通信 ， 二 层 通信 和 就 是 在 同一 个 子 网 内 的 两 台 主 机 之 间 
通信 ， 它 们 通常 是 同一 个 网 段 ， 不 需要 跨 子 网 通信 ; 有 三 层 通 信 ， 三 层 通 信和 是 指 跨 不 同 
二 子 网 进行 通信 ， 现 在 的 三 层 通信 基本 就 是 IP 通信 ， 所 有 的 路 由 器 都 是 根据 目的 全 查 
找 路 由 ， 逐 跳 把 报 文 交 给 下 一 个 路 由 器 ， 直 到 送 达 最 终 的 目的 子 网 ， 整 个 过 程 都 是 基于 
三 层 人 P 地 址 进行 寻 址 转发 的 。 而 四 层 路 由 方案 是 说 ， 当 报 文 在 进行 IP 转发 过 程 中 ， 我 
们 希望 这 些 报 文 去 往 一 些 它们 在 三 层 路 由 时 本 来 不 会 经 过 的 节点 , 比如 会 把 一 些 特定 的 流 
量 送 交 给 防火 墙 FW 处 理 或 者 一 些 NAT、Cache 等 处 理 节点 进行 处 理 ， 此 类 业务 处 理 设备 
通常 也 叫 VAS (Value Added Service， 增 值 业 务 ) 设备 。SFC 的 基本 原理 如 图 8-21 所 示 。 


Cache NAT 










R2(SSW) R4(SSW) 


图 8-21 SFC 的 基本 原理 


正常 的 一 个 用 户 流 报 文 假定 经 过 R1 一 R2 一 R4 几 个 路 由 器 转发 ， 这 个 过 程 是 经 过 三 
层 路 由 转发 的 。 现 在 由 于 某 些 需求 ， 需 要 让 某 些 用 户 的 流量 不 是 简单 地 走 R1 一 R2 一 R4 
路 径 转 发 ， 而 是 如 图 8-21 所 示 的 那样 ,希望 一 个 流 经 过 一 些 VAS 设备 ， 比 如 图 中 的 流 1 
走 RI 一 R2 一 FW 一 R2 一 R4 一 NAT 一 R4 的 路 径 进行 转发 ， 而 流 2 则 是 走 R1 一 R2 一 CACHE 一 
R2 一 R4 的 路 径 进 行 转发 。 这 样 ， 流 1 和 流 2 都 经 过 了 正常 路 由 转发 不 应 该 经 过 的 节点 ， 
正常 IP 路 由 也 不 会 把 这 些 报 文 送 交 给 FW、NAT、CACHE 等 处 理 。VAS 通常 是 进行 特 
定 的 业务 处 理 ， 而 不 做 三 层 转发 的 设备 ， 如 果 仅 仅 做 三 层 转发 就 没有 必要 使 用 VAS， 使 
用 路 由 器 就 可 以 了 。 某 个 用 户 流 进行 特定 序列 VAS 处 理 的 过 程 叫 作 业务 链 CSFC) 处 理 
过 程 ， 其 中 连接 有 VAS 的 路 由 器 称 为 SSW (Service Switch， 业 务 交 换 机 )。 这 个 业务 链 
的 转发 不 能 依据 耳 地 址 进行 ， 因 为 如 果 以 目的 人 P 查找 路 由 ， 报 文 只 会 按照 标准 的 
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R1-R2-R4 方式 转发 ， 而 不 会 把 报 文 转发 给 VAS， 所 以 需要 考虑 如 何 实现 这 种 SFC 功能 。 
这 里 可 以 提出 一 个 简单 的 方案 ， 业 务 要 求 是 把 特定 的 五 元 组 报 文 ， 比 如 流 1: 源 正 
11.8.9.2， 目 的 IP 1.0.9.89， 送 交 给 FW 和 NAT 处 理 。 可 以 在 R2 和 R4 上 分 别 进行 流 分 
类 , 识别 这 样 的 流 ， 并 把 它们 进行 策略 路 由 发 送 到 连接 FW 和 NAT 接口 。 这 个 方案 是 可 
以 解决 问题 的 ， 但 是 由 于 每 次 都 进行 流 分 类 ， 导 致 性 能 急剧 下 降 。 所 以 不 能 每 次 都 进行 
流 分 类 ,而 是 应 该 仅 进 行 一 次 流 分 类 ， 后 续 都 用 这 个 分 类 结果 进行 转发 。 比 如 仅仅 在 R2 
上 进行 一 次 流 分 类 ， 不 在 R4 上 做 流 分 类 ， 那 么 R4 上 如 何 识别 这 个 流 呢 ? 方法 是 在 R2 
流 分 类 后 ， 为 该 流 1 增加 一 个 流 ID， 并 加 入 报 文 ， 作 为 这 个 流 的 标记 。 这 样 ， 当 报 文 送 
交 到 R4 时 ，R4 就 可 以 直接 根据 流 ID 进行 策略 路 由 了 。 这 样 ， 相 当 于 增加 了 一 个 四 层 
转发 地 址 : 流 ID， 设 备 会 根据 流 ID 决定 其 转发 行为 ， 从 某 种 意义 上 讲 ， 就 是 在 现 有 三 
层 网 络 上 面 构建 了 一 个 四 层 虚 拟 网 络 。 此 方案 需要 通过 人 工 对 业务 交换 机 R2 和 R4 进行 
策略 配置 ， 配 置 什 么 样 的 流 ID 进行 什么 样 的 转发 行为 ， 但 是 如 果 这 种 业务 链 数量 很 多 ， 
而 且 可 能 经 常 变化 ， 那 人 工 配 置 就 显得 慢 了 ， 并 且 容 易 出 错 ， 因 为 上 只 要 人 参与 的 地 方 就 
容易 出 错 ， 而 机 器 自动 计算 则 不 会 出 错 。 所 以 ， 可 以 考虑 增加 一 个 控制 器 ， 专 门 控制 这 
些 业 务 链 路 由 。 这 种 控制 器 可 以 称 为 业务 链 控制 器 或 者 业务 链 虚 拟 网 络 控制 器 ， 这 样 控 
制 器 直接 根据 业务 链 需求 完成 业务 路 由 的 计算 和 下 发 ， 而 不 需要 在 业务 交换 机 上 进行 人 
工 配置 ， 这 样 就 简化 了 业务 链 的 部 署 过 程 ， 实 现 业务 链 的 全 自动 化 部 署 ， 也 降低 了 对 网 
络 管理 员 的 技能 要 求 。 

在 控制 器 的 具体 实现 原理 上 ， 控 制 器 上 层 APP 会 为 控制 器 配置 VAS 资源 ， 告 诉 控 
制 器 网 络 中 有 哪些 VAS 设备 以 及 这 些 VAS 的 资源 详细 信息 ， 比 如 可 以 处 理 多 少 用 户 流 
量 , 是 什么 类 型 的 VAS。 当 然 , 控制 器 也 是 可 以 通过 虚拟 接 入 感知 技术 感知 到 有 哪些 VAS 
设备 存在 的 。 不 过 ， 现 在 还 没有 标准 协议 能 够 通告 VAS 资源 状态 ， 需 要 等 待 对 VAS 的 
需求 接 入 感知 技术 标准 化 之 后 才 可 以 实现 虚拟 接 入 感知 。 

完成 这 些 资源 配置 之 后 , 控制 器 就 获得 了 系统 中 的 VAS 资源 情况 , 控制 器 同时 也 会 
获得 网 络 拓扑 信息 ， 拓 扑 中 包含 VAS 的 位 置信 息 ， 然 后 上 层 APP 可 以 下 发 业务 链 请 求 
给 控制 器 了 。 比 如 ， 要 求 : 


流 1: 源 耻 11.8.9.2， 目 的 IP 1.0.9.89， 要 求 经 过 VAS: FW,， NAT 
流 2: 源 卫 2.8.6.55， 目 的 了 了 1.0.9.89， 要 求 经 过 VAS: CACHE 


于 是 控制 器 会 根据 资源 位 置 计 算出 业务 路 径 ， 因 为 系统 中 可 能 有 多 个 FW 或 者 
CACHE， 控 制 器 会 选择 一 个 为 这 些 流 服 务 ， 同 时 生成 流 分 类 策略 ， 生 成 流 ID， 生 成 业 
务 流 路 由 下 发 给 R2 和 R4， 这 样 R2 和 R4 就 可 以 完成 业务 链 处 理 了 。 

这 里 流 分 类 设备 到 底 选择 在 哪里 ， 可 以 根据 业务 需要 ， 可 以 是 第 一 个 业务 交换 机 ， 也 可 
能 是 单独 的 流 分 类 设备 。 比 如 在 无 线 Gi-LAN 网 络 中 ， 流 分 类 设备 可 能 是 GGSN 设备 ， 而 在 
一 些 数据 中 心 场景 ， 可 能 要 在 流 进入 业务 交换 机 的 第 一 个 交换 机 上 进行 流 分 类 和 生成 流 ID， 
后 续 的 业务 交换 机 只 要 根据 报 文 流 ID 和 控制 器 下 发 的 四 层 流 路 由 表 进 行 转发 就 可 以 了 。 

这 种 业务 链 场景 应 用 在 WAN 网 络 的 POP 点 。 运 营 商 希望 为 客户 提供 区 分 服务 ， 比 
如 有 的 客户 希望 进行 FW 处 理 ， 有 的 希望 做 家 庭 控制 ， 都 可 以 在 POP 点 以 业务 链 方式 灵 
活 为 客户 定制 业务 。 另 外 ， 移 动 网 络 的 GGSN 所 在 位 置 也 要 进行 很 多 业务 处 理 ， 比 如 ， 
解决 移动 客户 下 载 图 片 的 压缩 、 视 频 压 缩 、 内 容 缓存 等 增值 业务 处 理 ， 也 需要 按照 不 同 
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用 户 进行 不 同业 务 处 理 。 在 数据 中 心 多 租户 场景 , 不 同 租户 可 能 有 不 同 的 业务 处 理 要 求 ， 
此 时 也 需要 一 种 业务 链 处 理 能 力 。 

这 种 业务 链 场景 是 一 种 典型 的 Overlay 虚拟 网 络 ， 控 制 器 仅仅 控制 业务 链 而 不 用 控 
制 基础 网 络 ， 是 一 种 混合 组 网 方式 。 


8.7 ” 跨 域 SDN 网 络 方案 


前 面 介 绍 主要 是 基于 一 个 自治 系统 如 果 从 传统 网 络 向 SDN 网 络 迁移 ， 而 客户 在 实 
际 部 署 网 络 中 ， 很 多 业务 都 是 跨 自 治 系统 的 ， 如 果 客 户 可 能 希望 提供 跨 自治 系统 实现 
SDN 的 能 力 的 , 那么 就 必须 考虑 如 何 进行 SDN 跨 域 组 网 问题 。 这 种 场景 算是 现 网 向 SDN 
演进 的 后 续 场 景 ， 为 了 走向 全 网 SDN 化 ， 必 须要 解决 跨 域 问题 。 跨 域 方 案 前 面 也 提 过 ， 
通常 有 Peer 模型 和 Layered 模型 。 

Peer 模型 如 图 8-22 所 示 。 





图 8-22 ”Peer 模型 跨 域 解决 方案 


SDN 控制 器 之 间 采 用 东西 向 接口 进行 路 由 交换 ， 而 东西 向 接口 都 可 以 采用 传统 网 络 的 
跨 域 路 由 协议 (比如 BGP) 进行 互通 ， 所 以 控制 嚣 一定 要 支持 这 些 跨 域 协议 。 控 制 器 一 旦 
支持 了 传统 跨 域 协议 ， 既 能 很 好 地 解决 控制 器 之 间 的 互通 问题 ， 也 能 够 很 好 地 解决 和 传统 
分 布 式 网 络 互通 的 问题 。 这 种 方案 相对 比较 成 熟 ， 容 易 快 速 部 署 ， 但 是 也 存在 一 个 问题 ， 
就 是 在 跨 域 业务 部 署 时 ， 在 这 两 个 控制 器 上 面 必须 增加 一 个 类 似 传统 的 OSS 设备 的 角色 ， 
负责 为 两 个 控制 器 生成 业务 配置 , 以 便 它们 之 间 能 够 互通 和 互 操作 一 起 完成 一 个 跨 域 业务 。 

Layered 模型 ， 也 称 作 分 层 控制 器 模型 ， 如 图 8-23 所 示 。 

Layered 模型 在 网 络 中 部 署 分 层 控制 器 ， 在 每 个 自治 域 部 署 一 个 域 控制 器 ， 在 其 上 
面部 署 另 外 一 个 控制 器 ， 称 为 父 控制 器 或 者 Super Controller， 此 时 可 以 把 域 控制 器 称 为 
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Domain Controller， 这 种 模型 更 加 符合 SDN 理念 。 域 控制 器 之 间 没 有 东西 向 接口 ， 仅 仅 
和 Super Controller 有 南北 向 接口 ， 跨 域 业 务 直 接 由 Super Controller 计算 完成 。 这 种 方案 
可 以 把 Domain Controller 和 Super controller 整体 看 成 一 个 大 的 控制 器 ， 这 样 网 络 上 就 只 
有 一 个 大 控制 器 ， 完 成 所 有 的 业务 控制 。 这 种 架构 的 缺点 是 目前 域 控 制 器 和 Super 
Controller 之 间 的 协议 还 不 成 熟 ， 很 多 细节 还 需要 详细 分 析 ， 主 要 包括 拓扑 如 何 收集 、 设 
备 资源 如 何 收 集 、 流 表 如 何 生成 和 下 发 、 跨 域 业务 路 径 如 何 计算 等 几 个 问题 。 但 是 无 论 
如 何 ， 在 这 种 模型 下 ，Super Controller 仍然 是 一 个 控制 器 ， 完 成 的 基本 功能 和 域 控制 器 
基本 没有 区 别 ， 包 括 拓扑 收集 、 资 源 收集 、 路 径 计 算 等 功能 ， 所 以 这 个 Super Controller 
可 以 看 成 是 在 控制 器 的 范围 内 ， 并 且 一 定 和 域 控制 器 是 同一 个 产品 形态 。 





8-23 ”Layered 模型 跨 域 解决 方案 


在 SDN 跨越 解决 方案 中 ， 这 两 种 模型 可 能 在 不 同 的 客户 那里 会 有 不 同 的 选择 ， 所 
以 作为 SDN 控制 器 提供 商 ， 必 须 同 时 考虑 这 两 种 模型 ， 而 跨 域 问题 并 不 是 一 定 要 等 到 单 
域 部 署 了 SDN 才 继 续 部 署 跨 域 SDN, 已 经 有 不 少 运营 商 提 出 要 求 支持 跨 域 的 SDN 来 解 
决 业务 自动 化 和 网 络 路 径 调 优 问题 。 客 户 需求 比 预期 的 来 得 还 要 快 , 这 样 就 要 求 SDN 控 
制 器 提供 商 能 够 快速 提供 解决 方案 ， 包 括 支 持 传统 跨 域 协议 等 。 


【本 章 小 结 】 


本 章 主要 介绍 了 SDN 网 络 如 何在 现 网 逐渐 开展 业务 的 方法 ， 这 些 方 法 使 得 运营 商 
或 者 网 络 运 行 维护 人 员 能 够 面 对 SDN 网 络 架构 这 样 一 个 大 概念 , 结合 网 络 的 实际 , 逐步 
地 开展 SDN 部 署 工作 ， 从 而 获得 SDN 带 来 的 价值 ， 并 且 能 保持 传统 的 现 网 已 经 部 署 业 
务 的 稳定 。 在 实现 过 程 中 会 对 SDN 控制 器 的 实现 提出 很 多 需求 ， 比 如 需要 支持 传统 跨 域 
路 由 协议 (比如 BGP 等 )、 需 要 支持 传统 分 布 式 控制 系统 和 控制 器 之 间 的 资源 冲突 问题 、 
需要 解决 业务 实例 从 分 布 式 控制 面 平 滑 迁 移 到 SDN 控制 器 问题 .需要 支持 迁移 过 程 所 必 
须 的 PCE+、RR+、iVPN 等 功能 ， 使 得 现 网 能 够 顺利 地 向 SDN 网 络 平滑 演进 。 








第 9 半 
SDN 控 制 费 实现 架构 
实例 分 析 








9.1 华为 控制 器 实现 架构 

9.2 ”ODL 控制 器 架构 

9.3 ”ONOS 控 制 器 架构 

9.4 基于 开源 控制 器 平台 构建 厂家 控制 器 
9.5 对比 总 结 


9.6 ”开源 控制 器 的 个 人 理解 








ee 
it 


Co 


ee re ee 
dd 


a 
mia 
a 








196 SDN 原理 解析 一 一 转 控 分 离 的 SDN 架构 


本 章 将 分 析 目 前 主流 的 几 家 控制 器 实现 案例 , 包括 华为 SNC (Smart Network Controller) 、 
开源 的 ODL (OpenDayLight) 、ONOS (OpenNetwork Operating System ) 控制 器 。 

SDN 网 络 架 构 理念 提出 以 后 ， 在 整个 产业 链 产 生 了 巨大 的 影响 。SDN 网 络 架 构 重 
构 现 有 的 卫 网 络 ,对 过 去 的 垂直 整合 市 场 进行 水 平整 合 ， 从 单一 厂家 提供 设备 的 全 部 部 
件 到 进行 精细 分 工 ， 有 人 提供 转发 芯片 ， 有 人 提供 转发 器 硬件 白 盒 设备 ， 有 人 提供 设备 
上 的 操作 系统 部 件 ， 有 人 提供 控制 器 ， 有 人 提供 控制 器 上 的 应 用 程序 。 这 种 分 工 使 得 每 
个 环节 可 以 充分 竞争 ， 最 终 使 得 每 个 部 分 的 技术 加 速 进步 ， 价 格 下 降 ， 所 以 几乎 所 有 的 
运营 商 和 用 户 对 此 都 非常 感 兴趣 。 但 原来 的 垂直 设备 供应 商 在 这 种 情况 下 就 非常 为 难 ， 
因为 它们 都 是 现 网 的 既得 利益 者 ， 很 难 主动 放弃 现 网 利益 ， 而 与 大 家 处 于 同一 个 新 平台 
进行 竞争 。 原本 设备 主流 供应 商都 是 游戏 规则 制定 者 , 尤其 是 现 网 设备 供应 商 的 领导 者 ， 
更 是 不 愿意 看 到 这 样 的 情况 发 生 。 面 对 这 样 一 次 网 络 架 构 重 构 和 洗 牌 的 机 会 ， 各 个 厂家 都 
有 不 同 应 对 ， 有 的 厂家 积极 拥抱 变化 ， 也 有 的 厂家 表面 支持 背后 却 设法 阻挠 SDN 的 发 展 ， 
也 有 很 多 START UP 公司 投入 到 SDN 网 络 技术 的 研究 中 。 在 各 厂家 的 竞争 较量 中 ， 思 科 
提出 了 ONEPK、WAE、ACI、XNC 等 众多 控制 器 方案 和 架构 ， 后 来 又 积极 加 入 到 IBM 和 
HP 发 起 的 开源 控制 器 平台 OpenDayLight (ODL) 的 开发 ， 发 布 基于 ODL 的 控制 器 。 华 
为 也 在 积极 推动 自己 的 控制 器 商用 并 和 一 些 主要 运营 商 进行 合作 ， 发 布 了 SNC 控制 器 ， 
以 满足 数据 中 心虚 拟 网 络 的 需求 ， 满 足 广域网 域内 流量 调 优 、 域 间 流 量 调整 等 方案 ， 并 达 
到 网 络 软件 化 可 编程 的 目的 。 同 时 ， 美 国 斯 坦 福 大 学 的 ON.Lab 成 立 了 一 个 开源 团队 ， 致 
力 于 开发 新 一 代 开 源 网 络 操作 系统 ONOS, 并 把 主要 目标 聚焦 在 运营 商 的 WAN 网 络 方面 ， 
期 望 ONOS 能 够 成 为 运营 商 领 域 的 主流 网 络 操作 系统 , 其 架构 主要 是 期 望 解决 大 规模 网 络 
的 扩展 性 问题 、 高 可 靠 、 高 性 能 ， 以 满足 运营 商 WAN 网 络 的 SDN 化 需求 。 

下 面 将 分 别 分 析 华 为 控制 器 、ODL 和 ONOS 这 三 个 控制 器 的 架构 。 


9.1 华为 控制 器 实现 架构 


9.1.1 ”华为 控制 器 分 层 逻 辑 架 构 


华为 公司 一 直 以 来 是 SDN 的 积极 支持 者 和 实践 者 ， 不 仅 和 中 国电 信 、 中 国 移动 、 
沃达丰 等 运营 商 进 行 合作 创新 ， 并 且 已 经 在 现 网 进行 了 很 多 部 署 ， 解 决 了 用 户 的 各 种 业 
务 自动 化 需求 和 流量 调度 需求 。 华 为 SNC 控制 器 主要 部 署 领域 包括 WAN 网 络 和 数据 中 
心 网 络 。WAN 网 络 主要 通过 PCE+ 技 术 和 RR+ 技 术 解 决 网 络 内 部 和 网 络 之 间 的 流量 调整 
和 路 径 调整 功能 ， 也 支持 像 IPRAN 网 络 的 L2VPN、L3VPN 的 业务 SDN 部 署 ， 简 化 了 
网 络 ， 实 现 业 务 的 自动 化 网 络 部 署 能 力 ; 数据 中 心 网 络 主要 实现 数据 中 心 多 租户 虚拟 网 
络 需求 以 及 业务 自动 化 。 华 为 SNC 控制 器 实现 SDN 网 络 解决 方案 架构 如 图 9-1 所 示 。 

华为 的 SDN 网 络 解决 方案 架构 基本 划分 为 三 个 层次 : 底层 是 转发 器 层 ， 中 间 层 是 
控制 器 层 ， 上 层 是 应 用 层 。 控 制 器 在 中 间 层 ， 提 供 PP、 组 播 、IPv6、L2VPN、L3VPN、 
数据 中 心虚 拟 网 络 等 网 络 业 务 。 转 发 器 层 主要 实现 用 户 的 数据 转发 ， 其 转发 数据 来 自 于 
控制 器 。 上 层 应 用 层 主要 包括 网 络 的 基础 设施 管理 、 网 元 的 单 站 运 维 、 网 络 业务 的 发 放 
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和 运 维 、 网 络 路 径 调 优 、 网 络 安全 系统 、 协 同 器 、 第 三 方 开发 平台 等 。 这 些 上 层 应 用 层 
的 程序 会 调用 控制 器 提供 的 北向 服务 。 


应 用 层 OpenStack/ 第 三 方 应 用 





REST API 

















NBI(REST APD 


网 络 业务 层 IP/IPv6/MCAST/VPNL2VN/SERVICECHAIN 





瑾 泗 司 


第 三 方 控 制 
应 用 





路 径 服务 层 WDMPATH，IP PATH，MPLS PATH，MAC PATH (路 径 计算 、 管 理 、 监 控 ) 





BGP/LDP/RSVP/PPP/802.1Q ， 接 入 协议 和 跨 域 协议 





NetOS API 











网 络 资源 层 HOSTM (CE/VM/ 基站 )，TOPO/TEDB (拓扑 发 现 、 管 理 和 监控 ) 
RESOURCE STATISTICS 





ELMM (网 元 发 现 、 管 理 、 监 控 ) 





ELMRESM (网 元 节点 资源 管理 : 接口 、 标 签 、 表 项 管理 ) 
SBI《〔 网 元 抽象 层 API) 


| 











网 元 驱动 层 


“厂家 1 驱动 程序 “厂家 2 驱动 程序 























图 9-1 华为 SNC 控制 器 实现 SDN 网 络 解决 方案 架构 


控制 器 架构 总 体 又 分 为 三 层 : 底层 是 华为 分 布 式 系统 中 间 件 〈 华 为 管道 OS)， 这 个 部 
分 主要 解决 控制 器 的 大 规模 分 布 式 能 力 ; 中 间 层 是 网 络 操作 系统 〈 也 称 为 网 络 资源 管理 系统 
或 者 控制 器 平台 )， 主 要 实现 网 络 资源 的 管理 ， 上 层 是 网 络 控制 业务 APP， 用 来 实现 网 络 的 
各 种 运营 商业 务 ， 比 如 基本 IP 转发 、 组 播 、VPN 业务 等 。 下 面 分 别 介绍 这 三 层 。 

1. 分 布 式 系 统 中 间 件 一 一 管道 OS 

华为 分 布 式 系 统 中 间 件 管道 OS 提供 一 个 分 布 式 基础 设施 ， 主 要 功能 是 屏蔽 底层 分 
布 式 硬件 的 差异 ， 提 供 配置 管理 服务 、 组 件 部 署 和 生命 周期 管理 服务 、 组 件 管 理 服务 、 
寻 址 和 通信 服务 、IP 栈 服务 、 基 础 操作 系统 服务 (内 存 管理 、 定 时 器 、 调 试 等 ) 等 服务 。 
管道 OS 的 基本 功能 如 图 9-2 所 示 。 

管道 OS 这 一 层 是 SDN 控制 器 的 基础 分 布 式 软件 支撑 系统 , 这 个 分 布 式 系统 中 间 件 
是 为 控制 器 上 层 业 务 软件 组 件 提供 服务 的 。 这 些 控制 器 软件 组 件 包 括 网 络 资源 管理 组 件 
以 及 上 层 的 网 络 业 务 应 用 程序 组 件 ， 控 制 器 只 是 管道 OS 上 面 运行 的 用 户 程序 。 管 道 OS 
并 没有 管理 任何 网 络 资源 ， 也 没有 处 理 控制 器 相关 的 网 络 业 务 数据 。 分 布 式 中 间 件 提供 
了 分 布 式 系 统 必须 提供 的 编程 框架 、 配 置 管理 、 服 务 编 址 寻 址 、IP 协议 栈 等 服务 。 华 为 
管道 OS 管理 的 都 是 组 件 化 的 应 用 程序 ， 开 发 人 员 可 以 创建 自己 的 组 件 ， 组 件 可 以 调用 
分 布 式 中 间 件 提供 的 服务 ， 也 可 以 调用 其 他 组 件 提供 的 服务 。 每 个 组 件 是 系统 中 一 个 独 
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立 部 署 、 运 行 、 监 控 的 基本 单位 。 分 布 式 中 间 件 系统 会 根据 需要 把 一 个 或 者 多 个 组 件 绑 
定 到 一 个 操作 系统 线程 上 运行 。 组 件 具体 的 运行 位 置 可 以 是 在 多 人 台 服 务 器 上 ， 也 可 以 是 
在 一 台 服 务 器 上 ， 可 以 运行 在 同一 个 进程 ， 也 可 以 运行 在 不 同 进程 ， 组 件 的 运行 位 置 都 
是 根据 系统 的 部 署 模型 由 分 布 式 中 间 件 自动 完成 部 署 的 。 每 个 组 件 则 拥有 自己 的 独立 的 
数据 , 每 个 组 件 的 基本 行为 就 是 处 理 自己 的 消息 队列 里 面 的 消息 , 修改 自己 的 本 地 数据 ， 
生成 并 发 送 给 其 他 组 件 消息 ， 所 以 组 件 也 可 以 称 为 消息 处 理 机 。 任 何 应 用 程序 都 是 由 一 
组 组 件 组 成 的 ， 组 件 和 其 他 组 件 是 松 耦 合 ， 它 们 之 间 通 过 消息 交互 ， 不 会 共享 数据 。 组 
件 可 以 被 独立 加 载 、 印 载 和 替换 。 组 件 的 基本 结构 如 图 9-3 所 示 。 


分 布 式 系统 应 用 程序 层 
组 件 / 用 户 程序 | | 组 件 /用 户 程序 组 件 / 用 户 程序 组 件 /用户 程序 
组 件 组 件 组 件 组 件 


华为 管道 OS 分 布 系统 中 间 件 


基础 操作 系统 服务 | | ”组件 编 程 和 组 件 分 布 式 
Tt i 


服务 器 商用 OS 


Linux Linux Linux Linux 


人 


图 9-2 分布 式 系统 中 间 件 管道 OS 的 基本 功能 


这 个 组 件 里 面 有 一 个 函数 叫 作 ReceiveMsg( )， 这 个 函 
数 是 处 理 消息 队列 的 入 口 函数 ， 但 是 组 件 自己 并 不 会 执行 
这 个 函数 ， 而 是 由 分 布 式 中 间 件 决定 何 时 调用 这 个 函数 来 
处 理 消息 。 这 是 组 件 的 基本 工作 原理 。 

图 9-4 是 组 件 在 这 个 分 布 式 系统 中 被 分 布 式 系统 中 间 
件 部 署 安排 运行 时 的 一 个 示意 。 

通过 以 上 介绍 可 以 看 出 ， 分 布 式 系统 中 间 件 管道 OS 
提供 一 个 分 布 式 操作 系统 ， 为 上 层 应 用 程序 组 件 屏蔽 底层 
多 服务 器 的 具体 运行 环境 细节 ， 比 如 底层 服务 器 数量 、 组 图 93 组 作 的 基本 结构 
件 具 体位 置 等 信息 ， 使 得 上 层 软件 程序 的 组 件 无 需 感知 下 面 运行 硬件 的 细节 ， 也 无 需 感 
知 自己 具体 的 运行 位 置 ， 这 一 切 都 是 因为 有 了 分 布 式 中 间 件 。 目 前 ， 管 道 OS 支持 运行 
在 Linux 操作 系统 ， 服 务 器 可 以 是 任何 运行 Linux 的 计算 机 ， 包 括 通用 服务 器 、 虚 拟 机 、 
专用 设备 (比如 路 由 器 的 主 控 板 ) 等。 

管道 OS 的 分 布 式 中 间 件 系统 实现 了 对 上 层 屏蔽 底层 运行 硬件 和 运行 位 置 的 细节 ， 
使 得 上 层 应 用 程序 不 用 关心 底层 多 服务 器 细节 ， 仅 需要 关心 自己 的 业务 处 理 。 而 且 管道 
OS 的 分 布 式 中 间 件 是 一 个 成 熟 的 商用 系统 ，2008 年 开始 商用 ， 目 前 已 经 在 华为 公司 核 
心路 由 器 NE5000E、NE40E 领域 运行 了 7 年 以 上 ， 在 运营 商 的 核心 网 络 上 也 大 量 部 署 。 
现在 华为 继续 把 这 个 成 熟 的 分 布 式 系统 中 间 件 作为 控制 器 的 基础 开发 平台 ， 使 得 华为 可 
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以 快速 完成 控制 器 开发 。 华 为 管道 OS 分 布 式 中 间 件 可 以 支持 水 平分 布 式 和 垂直 分 布 式 。 
每 个 组 件 的 部 署 实例 个 数 、 位 置 都 是 可 以 灵活 定义 的 ， 程 序 代码 不 需要 做 任何 修改 。 


攻 网 于 节 机 < 
np 多 mp-sd /AN 
< 这 和 
Ss RS 
| | 
pF MY 
| ww | 0 
上 


NL ,NE 省 


OS Process 





图 9-4 组 件 运行 示意 (COM 即 为 组 件 ) 


华为 管道 OS 的 分 布 式 系统 中 间 件 是 华为 开放 控制 器 的 一 个 基础 软件 编程 框架 ， 这 
个 分 布 式 系 统 中 间 件 由 一 个 统一 的 框架 完成 分 布 式 系统 所 需 的 各 种 服务 。 华 为 的 控制 器 
应 用 程序 就 是 众多 运行 在 这 个 管道 OS 提供 的 分 布 式 系统 中 间 件 上 的 一 个 应 用 程序 ， 这 
个 应 用 程序 和 其 他 程序 一 样 ， 是 由 一 组 组 件 构 成 的 。 

2. 网 络 操作 系统 层 ( 控制 器 平台 层 ) 

华为 公司 的 控制 器 的 第 二 个 层 ， 就 是 网 络 操作 系统 层 〈 控 制 器 平台 层 )。 这 一 层 负责 
网 络 资源 管理 、 转 发 器 网 元 资源 管理 。 这 一 层 的 作用 是 屏蔽 底层 转发 器 的 多 样 性 ， 对 上 层 
的 网 络 控制 业务 APP 提供 统一 的 服务 。 这 层 可 以 细 分 为 网 元 驱动 层 、 网 元 资源 管理 层 、 
网 络 资源 管理 层 等 几 个 子 层 。 网 元 驱动 层 主要 包括 数据 转换 适 配 ， 以 便 适 配 不 同 厂家 的 转 
发 器 。 网 元 驱动 程序 通常 由 转发 器 厂家 实现 ， 华 为 管道 OS 支持 开放 能 力 ， 提 供 模 型 接口 
文档 、 开 放 编 程 环境 和 开放 验证 环境 ， 以 支持 第 三 方 转发 器 厂家 可 以 完成 该 转发 器 的 驱动 
程序 开发 。 网 元 资源 管理 层 负 责 转 发 器 网 元 资源 的 管理 ， 包 括 接口 管理 、 标 签 管 理 、 转 发 
器 流 表 管 理 等 。 这 一 层 对 下 面 定 义 了 网 元 抽象 标准 接口 ， 所 有 的 网 元 驱动 程序 都 可 以 适 配 
这 个 标准 接口 来 驱动 自己 厂家 的 设备 。 网 络 资源 管理 层 主要 负责 网 络 相关 资源 管理 ， 比 如 
拓扑 管理 、 隧 道 管理 等 ， 对 上 层 和 网 元 资源 管理 层 一 起 提供 网 络 操作 系统 的 NETOS APT， 
供 上 层 网 络 控制 业务 APP 来 调用 完成 具体 的 网 络 业 务 。 正 因为 控制 器 平台 层 对 上 层 网 络 
控制 业务 应 用 程序 (各 种 VPN、 基 本 IP 转发 、 组 播 、 数 据 中 心虚 拟 网 络 等 ) 屏蔽 了 底层 
转发 器 设备 的 差异 ， 使 得 底层 转发 器 设备 的 替换 不 会 影响 任何 上 层 网 络 控制 业务 ， 而 且 增 
加 任何 上 层 网 络 控制 业务 应 用 程序 时 也 不 用 修改 任何 底层 设备 和 驱动 程序 。 

3. 网 络 业务 应 用 层 

华为 控制 器 的 最 上 层 是 网 络 业 务 应 用 层 ， 就 是 通常 所 见 的 各 种 运营 商 网 络 业 务 ， 比 
如 L2VPN、L3VPN、 组 播 、IPv4、IPv6、 数 据 中 心虚 拟 网 络 等 。 这 些 业 务 通 常 需要 学 习 
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周边 路 由 ， 计 算 网 络 内 部 路 径 ， 生 成 转发 器 所 需 的 转发 表 ， 根 据 网 络 状态 变化 重新 计算 
转发 表 并 更 新 到 转发 器 ， 确 保 用 户 业务 持续 。 其 中 最 为 关键 的 功能 包括 和 周边 进行 交互 
的 路 由 协议 ， 比 如 BGP、ARP、 组 播 协议 等 以 及 业务 路 由 的 计算 ， 另 外 一 个 部 分 就 是 根 
据 业 务 策 略 需 求 来 计算 网 络 内 部 的 交换 路 径 ， 这 是 该 层 提供 的 两 个 核心 功能 。 


9.1.2 ”华为 控制 器 分 布 式 模型 
华为 控制 器 的 分 布 式 实 现 ， 是 基于 华为 管道 OS 提供 的 分 布 式 系统 中 间 件 。 华 为 把 


控制 器 内 部 划分 为 节点 以 便于 进行 灵活 部 署 。 节 点 就 是 一 组 组 件 的 集合 ， 节 点 是 个 逻辑 
概念 ， 如 图 9-5 所 示 。 


控制 器 包括 分 
布 式 基础 系统 、 
网 络 操作 系统 
和 应 用 程序 


网 络 路 径 服 务 节点 
网 络 资源 管理 节点 〈 网 络 资源 层 ) 


网 元 资源 管理 节点 〈 网 元 资源 层 ) 网 络 操作 系统 
网 元 驱动 /协议 层 


理 、 分 布 式 宛 余 存储 、 
HA、IP 协议 栈 等 





图 9-5 ”华为 控制 器 内 部 组 件 示 意图 


网 元 资源 节点 负责 管理 网 元 的 所 有 资源 ， 是 经 过 抽象 后 的 逻辑 资源 ， 这 些 网 元 资源 
数据 模型 对 于 任何 一 个 转发 器 都 是 一 致 的 ， 与 转发 器 厂家 无 关 ， 与 转发 器 的 硬件 形态 无 
关 〔 比 如 集中 式 、 分 布 式 ， 单 框 、 多 框 )。 通 常 ， 一 个 网 元 资源 节点 可 以 管理 一 定数 量 的 
转发 器 的 资源 ， 而 网 络 中 的 转发 器 数量 根据 网 络 规模 的 不 同 而 不 同 ， 其 数量 可 能 从 几 十 
个 到 几 万 个 , 在 数据 中 心 部 署 OVS 场景 也 可 能 达到 上 百 万 。 这 种 情况 下 ， 就 可 以 动态 地 
在 控制 器 集群 中 新 增 网 元 资源 节点 实例 来 分 担 网 元 资源 的 管理 任务 。 这 种 方式 实现 了 水 
平 扩展 ， 解 决 了 网 元 数量 增加 的 问题 。 

网 络 资源 节点 主要 管理 拓扑 等 网 络 资源 。 这 部 分 资源 不 需要 像 网 元 资源 节点 一 样 进行 
水 平 扩展 ， 因 为 尽管 网 络 规模 变 大 ， 转 发 器 网 元 增多 ， 但 增加 网 元 在 拓扑 中 也 不 过 是 增加 
了 一 些 网 元 的 拓扑 数据 ， 每 个 网 元 会 增加 一 个 节点 对 象 、 增 加 这 个 节点 上 所 有 接口 对 象 和 
周边 互联 的 链 路 对 象 ， 并 不 会 导致 这 个 网 络 资源 节点 数据 急剧 增加 。 当 然 ， 为 了 应 对 网 络 
资源 管理 节点 在 一 台 计 算 机 上 无 法 完成 处 理 的 问题 ， 华 为 控制 器 也 具备 部 署 多 个 网 络 资源 
节点 的 能 力 。 但 是 通常 其 扩展 方式 与 网 元 资源 节点 不 同 : 网 络 资源 节点 的 分 布 式 部 署 方式 
可 能 在 系统 中 按 需 部 署 几 个 就 可 以 了 ， 而 网 元 资源 节点 可 能 进行 大 规模 水 平分 布 式 部 署 。 
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也 就 是 说 ， 华 为 控制 器 的 分 布 式 部 署 是 水 平分 布 式 + 垂 直 分 布 式 的 方式 ， 因 为 网 元 资源 节 
点 采用 水 平分 布 式 ， 而 整个 系统 看 来 又 是 垂直 分 布 式 的 ， 换 句 话 说， 整个 控制 器 系统 是 按 
功能 进行 垂直 分 布 式 部 署 ， 而 某 些 功能 是 根据 需要 进行 水 平分 布 式 部 署 的 。 

控制 器 上 面 应 用 层 的 网 络 边缘 业务 节点 实际 上 是 用 于 处 理 运营 商 网 络 PE 上 的 复杂 
接 入 业务 的 。 因 为 控制 器 集中 控制 之 后 ，PE 上 的 各 种 路 由 协议 处 理 相 当 复 杂 ， 一 个 PE 
就 可 能 运行 大 量 BGP 进程 并 处 理 大 量 VPN 业务 ， 所 以 在 控制 器 里 面 可 以 为 每 个 PE 部 
署 一 个 边缘 业务 节点 ， 由 该 节点 专门 处 理 PE 的 各 种 协议 和 业务 。 这 个 节点 的 部 署 方 式 
也 是 水 平分 布 式 的 ， 可 以 根据 边缘 设备 的 多 少 进行 水 平 扩展 。 

应 用 层 的 另外 一 个 节点 是 网 络 路 径 服务 节点 ， 这 个 节点 本 身 的 扩展 方式 同样 是 水 平 
分 布 式 ， 但 是 它 的 分 布 式 不 会 像 边缘 业务 节点 和 网 元 资源 节点 那样 的 水 平分 布 ， 而 是 根 
据 网 络 内 部 需要 计算 的 Fabric 交换 路 径 数 量 来 决定 自己 需要 部 署 多 少 个 实例 ， 以 处 理 网 
络 内 部 的 交换 路 径 。 

在 应 用 层 的 这 两 个 节点 可 以 被 简单 地 理解 为 如 图 9-6 所 示 的 样子 。 










控制 器 网 络 控 制 业务 应 用 层 


PE1 边缘 业务 节点 PE2 边缘 业务 节点 PE3 边缘 业务 节点 
网 络 路 径 服务 节点 《计算 PE1-PE2，PE2-PE3，PE3-PE1 之 间 交 换 路 径 ) 


\ 
PE3 网 元 资源 节点 





图 9-6 应 用 层 的 边缘 业务 节点 分 布 式 部 署 模 型 


通过 这 种 网 络 抽象 模型 ， 形 成 了 边缘 业务 节点 负责 处 理 边缘 接 入 业务 、 网 络 路 径 服务 
节点 负责 处 理 网 络 内 部 交换 路 径 的 架构 。 在 这 种 架构 下 ， 华 为 控制 器 产生 了 一 种 独特 的 能 
力 ， 就 是 可 上 可 下 部 署 能 力 ， 这 样 华为 控制 器 可 以 轻而易举 地 做 到 解决 方案 的 灵活 性 ， 满 
足 现 有 网 络 向 SDN 网 络 演进 的 能 力 。 既 可 以 把 边缘 业务 节点 的 功能 完全 部 署 在 转发 器 内 
部 ， 仅 仅 保留 网 络 内 交换 路 径 的 计算 功能 在 控制 器 上 面 执行 ， 比 如 华为 PCE+、RR+ 解 决 
方案 等 ; 也 可 以 把 网 络 交换 路 径 的 计算 和 生成 完全 部 署 在 转发 器 ， 而 网 络 边界 业务 路 由 的 
计算 部 署 在 控制 器 上 。 比 如 ， 华 为 提供 的 数据 中 心 VXLAN 的 虚拟 网 络 解决 方案 ， 控 制 器 
完成 虚拟 网 络 的 ARP 协议 处 理 和 虚拟 网 络 的 MAC 路 由 的 计算 。 当 然 , 如 果 把 网 络 交换 路 
径 和 网 络 边 缘 接 入 业务 都 部 署 在 转发 器 上 ， 控 制 面 全 部 是 传统 的 分 布 式 控 制 面 ， 那 么 控制 
器 仅仅 剩 下 网 络 业务 配置 分 解 功能 ， 这 个 功能 就 是 传统 OSS 的 功能 。 一 般 认 为 ， 这 种 没 
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有 把 内 部 交换 路 径 和 边缘 接 入 业务 控制 中 的 任何 一 种 控制 ， 部 署 在 控制 器 的 网 络 架 构 ， 都 
不 是 真正 的 SDN 网 络 架 构 。 这 种 没有 集中 控制 的 控制 器 只 不 过 是 一 个 传统 的 OSS 而 已 ， 
因为 前 面 分 析 过 这 样 不 能 实现 简化 网 络 和 支持 网 络 业务 快速 创新 能 力 的 要 求 。 

这 样 ， 华 为 的 控制 器 完整 的 基于 节点 分 布 式 的 部 署 类 似 于 图 9-7 所 示 。 












区 


| 
| 由 络 次 源 节 点 ! | | 网 络 资 源 节 点 1 | 四 和 资源 节点 2 | | 四 和 资源 节点 2 | | 由 元 资源 节点 ! | 1 | 网 元 资源 节点 2 | 2 | 四 元 资 池 点 3 | | 四 元 资 池 点 3 | 


Ed OS 分 布 式 系统 中 间作 
| itosi 和 | | 管道 0S 进 程 | 进程 | osite | | 管道 os 进程 | 进程 管道 OS | 千 间 Os 进香 | | etosit | OS 进程 管道 | wiiosate | | wiiosate | 


en OS 或 者 GuestOS 
| um | | um | | rm | | us | | us | 


[ea 
服务 器 或 者 vM | VM | 服务 器 或 者 VM | VM 服务 器 或 者 VM | VM | 服务 器 或 者 VM | VM | mm 多 星 者 v | VM 
图 9-7 ”基于 节点 的 分 布 式 部 署 


在 这 个 基于 节点 的 分 布 式 部 署 中 可 以 发 现 ， 网 元 资源 节点 是 水 平分 布 式 的 ， 随 着 网 
元 数量 增加 ， 可 以 不 断 地 向 系统 添加 服务 器 ， 并 把 网 元 资源 节点 部 署 在 新 添加 的 服务 器 
上 。 当 然 ， 一 个 网 元 资源 节点 通常 不 是 管理 一 个 转发 器 网 元 的 资源 ， 而 是 管理 多 个 转发 
器 网 元 的 资源 ， 这 样 使 得 控制 器 具有 管控 大 规模 网 络 设备 的 能 力 。 而 对 于 其 中 的 网 络 资 
源 节 点 ， 如 前 面 介绍 的 ， 通 常 系统 不 需要 部 署 很 多 个 网 络 资源 节点 实例 ， 而 是 根据 实际 
的 需要 来 部 署 。 比 如 当 发 现 仅仅 部 署 一 个 网 络 资源 节点 实例 可 能 在 资源 管理 上 存在 瓶颈 
时 ， 就 可 以 再 增加 一 个 网 络 资源 节点 实例 ， 而 且 出 于 可 靠 性 考虑 ， 通 常 至 少 需要 部 署 两 
个 网 络 资源 节点 实例 。 网 络 边缘 业务 节点 实例 和 网 元 资源 节点 是 一 样 的 ， 都 可 以 随 着 边 
缘 接 入 业务 数量 的 增多 而 进行 水 平分 布 式 部 署 。 

华为 控制 器 除了 支持 上 述 分 布 式 以 外 ， 在 网 络 控 制 业务 应 用 层 还 可 以 实现 基于 业务 
的 另外 一 种 分 布 式 ， 如 图 9-8 所 示 。 

此 时 ， 网 络 不 是 按照 网 络 边缘 业务 接 入 设备 来 天 然 划 分 分 布 式 ， 而 是 面向 业务 进行 
处 理 。 这 种 情况 下 ， 一 个 L3VPN 业务 应 用 程序 实例 可 能 为 该 L3VPN 业务 的 每 个 PE 计 
算 和 生成 业务 路 由 , 把 所 有 这 些 PE 的 接 入 协议 的 路 由 都 集中 在 一 个 L3VPN 业务 应 用 程 
序 实 例 上 进行 处 理 。 那 么 如 果 要 处 理 的 L3VPN 业务 实例 很 多 ， 比 如 10000 个 L3VPN 业 
务 ， 这 个 L3VPN 业务 应 用 程序 实例 如 何 处 理 如 此 多 的 L3VPN 业务 ? 有 两 个 解决 方案 ， 
其 中 一 个 是 可 以 部 署 另外 一 个 L3VPN 业务 应 用 程序 实例 2， 类 似 水 平分 布 式 ， 这 个 实例 
2 可 以 负责 分 担 部 分 L3VPN 业务 的 处 理 , 如 此 进行 分 布 式 处 理 就 可 以 解决 大 规模 业务 的 
分 布 式 处 理 问题 ; 另外 一 个 方案 是 可 以 让 控制 器 处 理 一 部 分 L3VPN 业务 ， 另 一 部 分 
L3VPN 业务 使 用 传统 的 分 布 式 网 络 方式 来 处 理 。 后 一 种 方案 适用 于 现 网 已 经 部 署 L3VPN 
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业务 的 情况 下 ， 和 希望 部 署 一 部 分 L3VPN 业务 由 控制 器 来 管控 ， 不 过 此 时 需要 解决 好 分 
布 式 控制 面 和 集中 的 控制 器 资源 冲突 问题 ,后 一 种 方案 也 适用 于 客户 希望 将 VPN 一 个 个 
地 迁移 到 控制 器 的 场景 。 









控制 器 网 络 控制 业务 应 用 层 


L3VPN 业务 应 用 L3VPN 业务 应 用 L3VPN 业务 应 用 
程序 实例 1 程序 实例 2 程序 实例 3 
i 5 ~ 去 2 


网 络 路 径 服务 节点 “计算 PEI:EE2，PE2-PESY- 捕 PET 之 间 交换 路 径 ) 
A a Ss SS Rk 


2 ~~ 
PE2 网 元 资源 节点 P 网 元 资源 节点 











PE1 网 元 资源 节点 





人 \ 
PE3 网 元 资源 节点 








9-8 ”基于 业务 的 网 络 控制 业务 应 用 层 示意 图 


对 于 分 布 式 ， 主 机 并 行 收发 问题 也 值得 讨论 。 华 为 控制 器 所 采用 的 管道 OS 分 布 式 系统 
的 中 间 件 内 嵌 了 一 个 路 由 功能 部 件 ， 使 得 整个 控制 器 集群 对 外 只 暴露 一 个 连接 JP 地址， 也 
就 是 UNI-IP 技术 , 这样 任 何 转发 器 都 只 需要 和 一 个 UNLIP 地 址 建立 连接 。 实际 上 , 报 文 进 
入 服务 器 通道 可 以 是 真实 服务 器 中 的 任何 一 个 , 分 布 式 中 间 件 都 可 以 正确 送 达 该 报 文 至 实际 
处 理 该 报 文 的 服务 器 , 这 就 是 内 网 的 路 由 功能 部 件 的 作用 。 这 个 部 件 使 得 控制 器 集群 对 于 外 
部 的 设备 ， 无 论 是 转发 器 设备 还 是 其 他 周边 协议 邻居 ， 都 仅仅 感知 到 一 个 卫 地 址 的 存在 ， 
或 者 说 仅仅 感知 到 一 个 设备 存在 ， 而 不 是 感知 到 控制 器 集群 的 多 个 服务 器 卫 地 址 。 对 周边 
设备 屏蔽 了 内 部 的 多 服务 器 集群 的 细节 ， 这 也 是 分 布 式 集群 应 该 具备 的 基本 能 力 。 

在 真实 的 组 网 中 ， 尽 管 多 个 服务 器 可 以 并 行 收 发 ， 但 是 通常 前 面 需要 一 个 前 置 的 负 
载 均 衡器 负责 向 多 个 服务 器 进行 负载 均衡 。 华 为 控制 器 的 服务 器 集群 支持 华为 管道 OS 
提供 的 内 置 负载 均衡 器 ， 也 支持 外 置 负载 均衡 器 ， 使 得 组 网 中 能 够 真正 地 发 挥 多 服务 器 
并 行 收发 处 理 的 能 力 。 


9.1.3 ”华为 SDN 控制 器 的 可 靠 性 


出 于 可 靠 性 考虑 ， 华 为 控制 器 的 控制 器 集群 具有 支持 双 点 同时 故障 保护 的 能 力 ， 并 
且 支 持 热 备 份 。 控 制 器 热 备 份 是 指 任何 一 个 节点 故障 ， 控 制 器 中 该 节点 的 备份 节点 会 立 
即 接管 系统 中 失效 节点 的 工作 。 如 果 要 做 到 能 应 对 两 个 节点 同时 故障 的 情况 ， 那 就 需要 
在 控制 器 内 部 部 署 两 个 热 备 份 节 点 。 但 是 ， 考 虑 到 性 价 比 ， 通 常 对 业务 节点 做 一 个 热 备 
份 就 可 以 了 。 然 而 分 布 式 中 间 件 系统 中 相关 的 组 件 ， 都 是 支持 双 点 同时 故障 保护 的 ， 以 
提高 系统 的 可 靠 性 。 因 为 如 果 分 布 式 中 间 件 崩溃 ， 那 么 整个 系统 需要 整 机 重启 ， 这 是 不 
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可 接受 的 。 而 业务 节点 月 溃 可 以 由 分 布 式 中 间 件 重新 部 署 新 的 业务 节点 来 快速 恢复 业务 。 

华为 控制 器 的 可 靠 性 技术 采用 了 类 似 传统 路 由 器 中 的 NSR (Non-Stop Routing) 技 
术 ， 既 备份 路 由 数据 也 备份 路 由 协议 状态 数据 ， 不 像 其 他 控制 器 仅仅 备份 路 由 数据 ， 不 
进行 路 由 协议 状态 备份 。 华 为 控制 器 能 够 做 到 完全 热 备份 ， 当 系统 出 现 倒 换 时 ， 周 边 协 
议 邻 居 不 感知 ， 协 议 不 间断 。 如 果 仅 仅 备 份 路 由 数据 的 控制 器 ， 当 本 地 集群 出 现 故 障 倒 
换 时 ， 周 边 协议 邻居 会 感知 并 且 中 断 邻 居 。 邻 居中 断 问题 之 所 以 如 此 严重 ， 是 因为 根据 
IP 基本 原理 ， 协 议 邻 居中 断 ， 邻 居 就 不 会 把 用 户 业 务 报 文 转发 给 该 设备 ， 而 是 选择 其 他 
路 径 转 发 ， 这 样 就 导致 用 户 业 务 受 到 影响 。 所 以 支持 NSR 技术 的 设备 ， 在 倒 换 过 程 中 ， 
由 于 周边 邻居 不 感知 ， 所 有 业务 都 不 会 受到 任何 影响 。 

华为 控制 器 还 提供 异地 多 控制 器 集群 的 匈 灾 备 份 ， 可 以 异地 部 署 两 台 控 制 器 ,每 台 控 
制 器 都 是 一 个 分 布 式 集群 系 统 ， 两 台 控 制 嚣 之 间 进 行 热 备份 ， 保 证 当 一 台 控 制 器 失效 时 ， 
另外 一 台 控 制 器 可 以 接替 工作 。 可 根据 用 户 需 求 决定 是 否 需 要 风灾 热 备份 ， 本 文 作者 推荐 
宛 灾 时 考虑 温 备 份 即 可 。 其 理由 仍然 是 成 本 权衡 ， 包 括 技术 成 本 和 购买 成 本 。 元 灾 备 份 本 
身 是 为 了 应 对 小 概率 事件 ， 所 以 对 于 网 络 业务 间断 的 容忍 时 间 ， 应 该 可 以 接受 分 钟 级 别 。 


9.1.4 “华为 控制 器 的 开放 性 


华为 控制 器 支持 多 层 开 放 ， 首 先 开 放 南 向 驱动 接口 ， 提 供 驱 动 程序 开放 框架 ， 第 三 
方 厂家 可 以 开发 驱动 程序 对 接 华为 的 控制 器 ;北向 开放 网 络 操作 系统 的 NetOS API。 这 
些 API 可 以 读 取 网 络 状态 、 获 取 网 络 事件 、 读 取 网 元 资源 、 操 作 网 元 转发 表 等 ， 以 便 供 
控制 类 应 用 程序 进行 网 络 控制 业务 应 用 程序 开发 。 北 向 也 开放 网 络 业务 接口 ， 这 些 接口 
称 为 网 络 业务 API， 供 上 一 层 应 用 程序 〈 协 同 层 应 用 程序 ) 调用 这 些 网 络 服务 。 提 供 的 
编程 接口 形式 包括 JavaAPI、Nentconf 和 RESTFUL 等 ， 并 提供 开发 编程 环境 的 eSDK， 
同时 可 以 提供 网 络 自 动 化 验证 环境 ， 以 便 验证 基于 这 些 API 开发 的 程序 的 正确 性 。 目 前 
华为 控制 器 是 一 个 开放 闭 源 系 统 。 

对 于 开放 和 开源 这 两 个 概念 ， 有 必要 澄清 一 下 。 事 实 上 ， 客 户 本 来 更 加 关心 的 是 系 
统 的 开放 性 ， 开 放 的 系统 可 以 有 效 地 解决 南 向 多 厂家 对 接 问 题 ， 也 可 以 有 效 地 解决 北向 
多 厂家 APP 互通 问题 。 从 历史 看 ， 微 软 的 WINDOWS、 苹 果 的 手机 IOS 系统 都 是 开放 
闭 源 系 统 ， 满 足 了 广大 用 户 的 需求 。 可 是 现在 为 什么 客户 希望 使 用 开源 呢 ? 开源 可 以 看 
作 是 更 加 开放 的 系统 ， 开 源 系 统 把 源 代码 都 公布 出 来 了 。 其 实 ， 把 源 代码 公布 出 来 是 相 
比 开 放 闭 源 系 统 在 形式 上 的 唯一 区 别 。 到 底 把 源码 公布 出 来 有 什么 好 处 ? 对 客户 产生 了 
什么 价值 呢 ? 有 人 说 更 加 安全 了 ， 因 为 闭 源 的 系统 代码 不 公开 ， 所 以 可 能 藏 了 自己 的 后 
门 。 这 种 担心 当然 是 多 余 的 , 运营 商 如 果 担 心 , 厂家 的 代码 完全 可 以 交付 给 运营 商 审查 。 
其 实 ， 开 源 代码 由 于 任何 人 都 容易 获得 ， 所 以 某 种 意义 上 也 可 能 是 一 种 不 安全 因素 。 也 
有 人 说 ， 开 源 系 统 使 用 的 人 多 ， 可 以 更 加 快速 地 交付 和 使 得 系统 更 加 稳定 。 从 历史 上 看 ， 
都 是 厂家 自己 交付 的 系统 更 快 更 好 ， 开 源 系统 由 于 其 参与 厂家 的 心态 的 复杂 性 ， 其 实 很 
难 快速 推进 。 前 面 讨 论 过 ， 开 源 系统 要 想 获 得 一 定 市 场 认 可 ， 必 须 有 大 的 开发 商 文 撑 ， 
而 这 种 支撑 是 有 失 之 东 隅 、 收 之 桑 榆 的 商业 模式 才 可 以 ， 否 则 哪 有 大 厂家 愿意 为 天 下 页 
献 免费 午餐 。 开 源 具有 的 一 个 功能 是 定义 一 个 参考 实现 模型 ， 通 过 这 个 参考 实现 模型 ， 
可 以 加 速 标 准 的 推进 。 由 于 标准 讨论 过 程 复 杂 ， 周 期 都 很 长 ， 如 果 能 够 通过 开源 来 快速 
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定义 一 个 产品 标准 ， 就 很 容易 实现 互联 互通 问题 。 这 个 价值 是 实 实在 在 存在 的 。 

在 控制 器 领域 ， 现 在 形势 复杂 ， 谁 也 不 知道 未 来 开源 控制 器 会 发 展 得 如 何 。 在 这 种 
态势 下 , 华为 的 SDN 控制 器 架构 还 在 进行 进一步 的 增强 , 它 可 以 基于 开源 的 控制 器 系统 
ONOS 来 构建 产品 交付 。 也 就 是 说 ， 华 为 以 SOA 架构 基于 ONOS 构建 华为 的 控制 器 。 
ONOS 相当 于 网 络 操作 系统 ， 华 为 在 ONOS 上 面 开 发 了 网 络 业 务 应 用 程序 ， 这 些 网 络 业 
务 应 用 程序 既 可 以 运行 在 华为 自己 的 网 络 操作 系统 上 ， 也 可 以 运行 在 ONOS 上 ， 这样 可 
以 有 效 地 应 对 未 来 的 不 确定 性 。 当 然 华为 内 部 技术 上 也 在 研究 开源 控制 器 系统 ODL， 以 
便 能 够 快速 完成 网 络 操作 系统 平台 的 切换 。 


9.1.5 ”华为 控制 器 的 可 迁移 性 


华为 控制 器 的 严格 分 层 架 构 ， 使 得 各 层 可 以 相对 独立 地 被 使 用 。 华 为 已 经 发 布 的 控 
制 器 包含 网 络 操作 系统 和 网 络 业务 应 用 层 。 华 为 同时 也 发 布 了 基于 ONOS/ODL 开源 控 
制 器 平台 的 控制 器 ， 这 种 控制 器 的 架构 类 似 于 一 种 SOA (Service Oriented Architecture ) 
松 耦 合 架 构 。 

华为 把 控制 器 内 部 的 网 络 控制 业务 APP 层 (网 络 业 务 应 用 层 , 包括 L2VPN、L3VPN 
等 ) 运行 在 ONOS 的 控制 器 平台 上 ， 就 是 说 利用 ONOS 的 CORE 替代 华为 控制 器 网 络 
控制 业务 APP 层 所 依赖 的 网 络 操作 系统 服务 ， 这 样 使 得 华为 的 关键 网 络 控制 业务 APP 
可 以 比较 容易 跨 平台 运行 。 华 为 的 做 法 是 在 ONOS 内 部 增加 一 个 桩 模块 ,通过 这 个 桩 模 
块 完成 ONOS 控制 器 平台 和 华为 网 络 控 制 业 务 APP 的 交互 。 这 样 ， 本 质 上 华为 的 网 络 
控制 业务 APP 也 是 一 个 ONOS 上 的 APP。 

同样 地 ， 华 为 控制 器 的 网 络 业 务 应 用 层 也 可 以 运行 在 ODL 开源 控制 器 平台 ， 利 用 
ODL 的 南 向 接口 对 接 多 厂家 转发 器 ， 也 可 以 接收 从 ODL 北向 进入 的 网 络 业 务 请 求 ， 完 
成 网 络 业务 实现 ， 解 决 多 厂家 的 协同 层 APP 的 互 操作 问题 。 


9.1.6 ”总 结 


华为 SDN 网 络 解 决 方案 采用 了 基本 的 SDN 网 络 分 层 架 构 ， 从 解决 方案 上 分 为 转发 
器 层 、 控 制 器 层 、 应 用 层 。 华 为 控制 器 内 部 又 分 为 分 布 式 系统 中 间 件 层 、 网 络 操作 系统 
层 、 网 络 控制 业务 APP 层 。 利 用 华为 管道 OS 提供 的 分 布 式 系统 中 间 件 层 ， 对 上 层 各 种 
应 用 程序 组 件 〈 包 括 控制 器 程序 组 件 ) 屏蔽 了 底层 多 服务 器 差异 ， 也 对 周边 邻居 屏蔽 了 
分 布 式 系统 的 详细 细节 ， 使 得 周边 邻居 设备 不 感知 集群 内 部 的 服务 器 数量 、 位 置 等 信息 。 
网 络 操作 系统 层 负责 转发 器 的 网 元 资源 管理 和 网 络 资源 管理 ， 转 发 器 网 元 资源 管理 是 一 
个 设备 资源 模型 的 逻辑 抽象 ， 多 三 家 设备 可 以 通过 驱动 程序 对 接 标 准 的 网 元 资源 管理 层 
的 SBI 接口 完成 对 自己 厂家 设备 的 驱动 ， 或 者 通过 标准 的 OpenFlow 协议 来 完成 设备 驱 
动 。 网 络 操作 系统 层 则 屏蔽 了 多 厂家 转发 器 的 细节 ， 使 得 网 络 控制 业务 应 用 程序 可 以 不 
感知 下 面具 体 转 发 器 的 厂家 、 设 备 硬 件 信息 等 。 

严格 的 分 层 架构 ， 使 得 华为 控制 器 的 网 络 业 务 应 用 程序 具有 良好 的 可 迁移 性 。 华 为 
同时 发 布 了 基于 自己 的 网 络 操作 系统 的 控制 器 和 基于 ONOS 开源 控制 器 平台 的 控制 器 。 

华为 控制 器 支持 多 种 部 署 模式 ， 支 持 可 上 可 下 部 署 ， 充 分 考虑 运营 商 网 络 向 SDN 
网 络 迁 移 的 方案 ， 既 可 以 单独 在 控制 器 部 署 网 络 内 部 交换 路 径 计算 ， 也 可 以 单独 在 控制 
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器 内 部 部 署 网 络 边缘 接 入 业务 控制 , 或 者 把 两 者 都 部 署 在 SDN 控制 器 上 进行 控制 , 并 且 
可 以 按照 不 同业 务 或 者 不 同业 务实 例 进行 部 署 ， 比 如 部 分 业务 或 者 业务 实例 部 署 在 控制 
器 上 ， 另 外 的 部 分 业务 或 者 业务 实例 部 署 在 传统 分 布 式 控制 面 上 。 

华为 控制 器 的 分 布 式 支 持 垂 直 分 布 式 和 水 平分 布 式 两 种 模式 ， 支 持 对 外 提供 一 个 卫 
服务 地 址 (UNI-IP 技术 ) 能 力 。 分 布 式 可 以 基于 不 同 功能 ， 按 照 节 点 进行 不 同 的 模型 扩 
展 ， 整 体 上 是 一 种 垂直 分 布 式 ， 而 每 个 功能 节点 可 以 独立 地 进行 水 平分 布 式 扩展 。 

华为 控制 器 支持 传统 的 NSR 技术 ， 做 到 控制 器 集群 的 部 件 故障 ， 周 边 邻 居 不 感知 ， 
支持 控制 器 集群 内 双 点 同时 故障 保护 能 力 ， 也 支持 异地 元 灾 的 备份 恢复 技术 。 

华为 控制 器 支持 和 传统 网 络 进行 互通 ,支持 与 传统 的 BGP、ARP 等 路 由 协议 的 互通 ， 
支持 SDN 网 络 在 现 有 网 络 中 的 部 署 。 

华为 控制 器 是 面向 IP+ 光 、WAN 网 络 、DCI 网 络 的 解决 方案 ， 同 时 支持 数据 中 心 网 
络 虚拟 化 和 业务 链 等 需求 。 

华为 控制 器 继承 了 很 多 传统 路 由 器 软件 部 件 ， 使 得 整个 控制 器 具备 快速 成 熟 并 商用 
的 能 力 ， 保 持 了 运营 商 领 域 传统 的 运行 维护 体验 ， 包 括 配置 、 性 能 、 告 警 等 ， 降 低 了 学 
习 成 本 。 


9.2 ”ODL 控制 器 架构 


ODL 是 一 个 开源 控制 器 ， 是 IBM 和 HP 公司 发 起 的 ， 主 要 致力 于 解决 数据 中 心 网 络 
虚拟 化 问题 。ODL 于 2014 年 年 底 发 布控 制 器 的 HELIUM 版 本 , 该 版 本 主要 支持 数据 中 心 
虚拟 网 络 ， 对 上 主要 和 Openstack 对 接 ， 对 下 主要 和 OVS《〈 开 放 交 换 机 ， 一 个 运行 在 服务 
器 中 的 软件 交换 机 ， 是 一 个 开源 软件 ) 对 接 。ODL 定位 是 一 个 控制 器 ， 包 含 控制 器 北向 
业务 接口 、 网 络 业 务 应 用 、 控制 器 平台 层 (基本 网 络 业务 服务 ) 和 南 向 协议 。 特 别 地 ，ODL 
还 定义 了 一 层 MD-SAL 层 。 当 然 ， 目 前 阶段 客户 还 不 可 能 直接 获取 开源 ODL 代码 去 运营 
自己 的 网 络 业 务 ， 无 论 是 企业 客户 还 是 运营 商都 无 法 直接 获得 开源 ODL， 当 作 自 己 的 网 
络 控制 器 ， 并 进行 商用 。 这 是 因为 ， 目 前 阶段 ODL 并 不 成 熟 ， 主 要 是 定义 了 一 些 基本 网 
络 服务 和 控制 器 开发 所 需 的 基本 编程 框架 服务 (MD-SAL)， 基 本 网 络 服务 包括 拓扑 、 主 
机 管理 、 统计 等 ; 控制 器 开发 的 基本 编程 框架 服务 包括 数据 库 服 务 、RPC 服务 、 建 模 服务 、 
分 布 式 服务 等 。 但 是 运营 商 所 需要 的 很 多 网 络 业 务 比 如 互通 协议 、VPN 业务 等 还 没有 实 
现 ， 也 就 是 说 ODL 控制 器 目前 仅仅 实现 部 分 框架 功能 和 少量 网 络 资源 管理 服务 ， 各 种 网 
络 业务 应 用 程序 都 没有 定义 和 实现 。 这 样 三 家 如 果 希 望 使 用 ODL 来 构建 三 家 控制 器 ， 需 

完善 ODL 中 的 基本 网 络 服务 ， 补 充 网 络 业务 应 用 ， 并 完善 ODL 的 质量 ,才能 交付 可 商 
用 的 ODL 控制 器 。 另 外 一 个 方面 ，ODL 在 整个 OAM 操作 维护 方面 与 商用 需求 还 有 较 大 
差距 ， 比 如 配置 、 告 警 、 故 障 等 方面 都 不 完善 ， 有 不 少 三 家 都 在 ODL 上 完善 这 些 操 作 维 
护 功 能 ,发布 私有 的 ODL 控制 器 。 这 些 三 家 通常 并 没有 把 对 ODL 的 完善 部 分 代码 开源 到 
社区 ， 而 且 基 于 ODL 开发 的 厂家 是 否 愿 意 贡 献 以 及 贡献 哪些 部 分 到 ODL， 也 都 是 根据 其 
本 身 的 商业 利益 决定 的 。 由 于 开源 ODL 由 于 不 是 一 个 商业 组 织 ， 所 以 其 交付 的 代码 质量 、 
可 靠 性 、 性 能 等 方面 和 厂家 独立 交付 的 经 过 严格 质量 保证 的 系统 ， 在 满足 客户 需求 方面 有 
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差距 的 ， 尤 其 是 在 没有 一 个 大 厂家 真心 实意 地 投入 进去 的 情况 下 ， 更 是 如 此 。 
9.2.1 ”ODL 各 层 架 构 基 本 功能 
图 9-9 所 示 是 ODL HELIUM 版 本 架构 ， 接 下 来 介绍 ODL 各 个 部 分 的 功能 。 
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图 9-9 ”ODL 最 新 架构 


1. ODL 的 AD-SAL 和 MD-SAL 架构 

(1) 早期 基于 AD-SAL 的 ODL 架构 

早期 的 ODL 架构 如 图 9-10 所 示 ， 在 功能 上 大 体 分 为 南 向 协议 层 (如 OpenFlow、 
Netconf 等 )、SAL 层 、 北 向 业务 /应 用 层 三 层 ， 同 时 还 包括 Netconf Server 端 、Config 子 
系统 以 及 Restconf 协议 组 件 。 

对 图 9-9 所 示 的 各 功能 分 层 和 组 件 分 别 介绍 如 下 。 

Q@ 南 向 协议 层 : 包含 OpenFlow、BGP-LS、PCEP、Netconf 等 协议 插件 ， 完 成 与 南 
向 网 络 设备 的 功能 对 接 ， 主 要 用 于 从 网 络 设备 获取 数据 ， 将 策略 /控制 应 用 到 网 络 设备 。 

@ 北向 业务 /应 用 层 : 分 为 基础 网 络 服务 和 业务 功能 两 大 组 件 ， 基 础 网 络 服务 组 件 
主要 完成 网 络 资源 的 管理 并 为 业务 功能 组 件 提 供 服 务 ， 业 务 功 能 组 件 则 包含 与 具体 网 络 
应 用 相关 的 业务 逻辑 。 

@ SAL 层 : SAL 层 是 ODL 在 早期 为 隔离 南 向 协议 层 和 北向 业务 /应 用 层 而 引入 的 一 项 
设计 。ODL 的 各 组 件 由 开源 社区 的 不 同 团队 开发 ， 为 使 这 些 组 件 的 开发 过 程 能 够 相对 独立 
进行 ，ODL 引入 了 SAL 层 ，SAL 层 充当 南 向 协议 层 和 北向 业务 /应 用 层 的 “中 介 ” 南 向 协 
议 层 或 北向 业务 /应 用 层 都 只 看 到 SAL 层 ， 这 样 避免 了 它们 在 开发 过 程 中 的 相互 依赖 。 

@ Netconf Server 端 ODL 有 很 多 模块 参数 需要 配置 ， 比 如 OpenFlow 插件 的 监听 
地 址 和 端口 号 ，ODL 提供 了 Netconf 协议 配置 方式 来 配置 这 些 模块 参数 ， 此 时 ，ODL 作 


208 SDN 原理 解析 一 一 转 控 分 离 的 SDN 架构 


为 Netconf Server 端 接收 Netconf Client 端的 配置 操作 。 


Topology jr 让 和 
| rter ee 加 


Expo 





图 9-10 基于 AD-SAL 的 ODL 架构 (来 自 ODL 官方 网 站 : opendaylight.org) 


@) Config 子 系统 :Config 子 系统 完成 模块 配置 的 初始 加 载 ,同时 将 ODL 通过 Netconf 
通道 接收 的 模块 配置 保存 到 控制 器 中 。 

@ Restconf 协议 组 件 : ODL 提供 了 北向 业务 /应 用 层 组 件 与 APP 通过 Restconf 协议 
进行 交互 的 能 力 ， 这 一 功能 由 Restconf 协议 组 件 来 承担 。 

从 图 9-10 所 示 的 架构 图 中 不 难看 出 ，SAL 层 是 ODL 控制 器 的 核心 。 

下 面 以 一 个 ARP 报 文 收发 过 程 为 例 ， 来 对 SAL 层 工作 原理 进行 说 明 。 如 图 9-11 所 示 。 





IListenDataPacket IDataPacketService 
IPluginOutDataPacketService IPluginInDataPacketService 





图 9-11 基于 AD-SAL 架构 的 ARP 报 文 收发 过 程 示意 图 


对 于 接收 ARP 请 求 报 文 ， 南 向 OpenFlow 插件 从 网 络 设备 接收 到 ARP 报 文 后 调用 
SAL 层 提供 的 接口 IPluginOutDataPacketService〈 该 接口 由 SAL 层 实现 ) 向 北向 传递 报 
文 ， 在 该 接口 实现 过 程 中 再 调用 ARP 组 件 注册 到 SAL 层 的 报 文 接收 处 理 接口 
IListenDataPacket〈 该 接口 由 ARP 组 件 实现 ); 对 于 发 送 ARP 响应 报 文 ， 北 向 ARP 组 件 
构造 好 ARP 报 文 后 调用 SAL 层 提供 的 接口 IDataPacketService 向 南 向 组 件 传 递 报 文 ,在 
该 接口 实现 过 程 中 再 调用 OpenFlow 插件 注册 到 SAL 层 的 报 文 发 送 处 理 接口 IPluginIn 
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DataPacketService 〈 该 接口 由 OpenFlow 插件 实现 )。 

SAL 层 与 南北 向 组 件 之 间 的 接口 独立 定义 ， 所 有 的 接口 都 由 SAL 层 定义 ， 一 部 分 
接口 由 SAL 层 直 接 实 现 ， 一 部 分 接口 由 南北 向 组 件 实现 并 注册 到 SAL 层 。 此 外 ， 所 有 
的 接口 调用 过 程 都 是 同步 的 。 所 以 ， 早 期 的 SAL 也 称 为 AD-SAL， 即 API-Driven SAL。 

显然 ，SAL 层 需要 适应 业务 需求 而 对 南北 向 交互 接口 定义 进行 增加 、 修 改 或 删除 ， 也 
就 是 说 南北 向 组 件 的 开发 可 能 随时 需要 对 SAL 代码 进行 修改 。 同 时 ， 由 于 SAL 层 与 南 向 北 
向 组 件 间接 口 的 定义 是 独立 的 ， 对 于 具有 同样 参数 的 接口 需要 分 别 在 SAL 层 与 南 向 北向 组 
件 之 间 分 别 定义 相同 的 接口 。 相 应 地 ， 这 些 接口 参数 对 象 的 解析 /设置 代码 也 需要 分 别 写 一 
份 ， 即 使 它们 包含 相同 的 属性 。 此 外 ，SAL 层 还 需要 完成 南北 向 接口 参数 之 间 的 适 配 。 

这 里 AD-SAL 定义 了 应 用 层 和 协议 组 件 的 一 套 接口 , 这 种 设计 会 导致 当 协议 组 件 提 
供 的 接口 变化 时 , 同时 也 需要 修改 AD-SAL 代码 , ODL 希望 能 够 提供 一 套 分 布 式 中 间 件 
系统 ， 这 个 中 间 件 系统 不 应 该 依赖 于 任何 组 件 的 具体 实现 。 显 然 地 ，AD-SAL 虽然 定义 
了 具体 的 协议 组 件 的 一 个 接口 ， 但 没有 达到 ODL 原先 设想 的 应 该 仅仅 提供 一 个 分 布 式 
中 间 件 的 要 求 ， 所 以 ODL 提出 了 开发 MD-SAL， 通 过 MD-SAL 来 承担 分 布 式 中 间 件 ， 
替代 原来 的 AD-SAL。 在 ODL 的 Helium 版 本 之 后 的 版 本 ， 就 逐步 去 除了 AD-SAL 的 所 
有 相关 实现 。 而 对 于 AD-SAL 本 身 包含 了 两 个 部 分 功能 ， 一 个 是 中 间 件 功能 ， 一 个 是 定 
义 标准 的 抽象 模型 的 功能 ， 两 者 都 是 控制 器 平台 必需 的 功能 。 而 MD-SAL 对 AD-SAL 
进行 解 契 ， 实 现 了 分 布 式 中 间 件 功能 。 

(2) 基于 MD-SAL 的 ODL 架构 

如 前 所 述 ， 基 于 AD-SAL 的 ODL 架构 最 大 的 问题 是 把 中 间 件 功能 和 业务 模型 耦 
合 在 一 起 实现 了 ， 带 来 可 扩展 性 差 的 问题 ，MD-SAL 正 是 为 解决 这 一 问题 而 从 
AD-SAL 演进 来 的 。 如 图 9-12 所 示 , 基于 MD-SAL 的 ODL 架构 在 功能 上 看 似 仍然 包 
括 了 基于 AD-SAL 的 ODL 架构 中 的 很 多 功能 组 件 ， 但 在 设计 与 实现 上 却 发 生 了 本 质 
的 变化 。 


Protocol Config Service/App 
Plugin Subsystem Plugin 





图 9-12 基于 MD-SAL 的 ODL 架构 (来自 ODL 官方 网 站 : opendaylight.org) 
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协议 组 件 、 业 务 /应 用 组 件 被 统一 抽象 为 服务 /数据 组 件 ， 并 分 为 提供 者 和 消费 者 两 
类 ,提供 者 通过 APIs 提供 服务 ， 消 费 者 消费 提供 者 提供 的 服务 ， 同 一 组 件 可 以 同时 作为 
消费 者 和 提供 者 。 比 如 ，OpenFlow 协议 组 件 作为 提供 者 提供 对 连接 到 插件 上 的 交换 机 进 
行 流 的 增加 、 删 除 和 修改 等 服务 ， 而 转发 规则 管理 者 组 件 则 作为 OpenFlow 协议 组 件 的 
消费 者 ， 并 同时 为 北向 APP 提供 更 高 层 的 服务 。 

在 架构 上 ，SAL 层 仍 然 是 ODL 的 一 个 核心 ， 是 一 个 分 布 式 中 间 件 和 编程 基础 框架 ， 
并 且 SAL 层 本 身 并 不 区 分 组 件 类 型 ,也 不 感知 组 件 业 务 应 用 逻辑 , 不 再 包含 组 件 相 关 的 
代码 ，SAL 层 只 是 充当 组 件 间 通信 消息 的 总 线 。 组 件 间 的 交互 行为 大 致 分 为 三 种 情况 : 
由 消费 者 调用 提供 者 的 服务 ( 称 为 RPC); 由 提供 者 向 消费 者 发 送 通知 ( 称 为 Notification ); 
组 件 对 DataStore 的 读 写 以 及 DataStore 将 数据 变化 通知 到 组 件 。 所 有 这 些 行 为 都 是 通过 
SAL 层 来 完成 的 ， 所 以 SAL 层 实际 上 充当 了 RPC、Notification、Data 的 “中 介 ”。 

对 于 RPC, 提供 者 需要 首先 把 服务 注册 到 SAL 层 , 消费 者 需要 进行 RPC 时 , 向 SAL 
层 查找 所 需要 的 服务 并 调用 服务 接口 ， 且 调用 过 程 是 异步 的 。RPC 的 注册 /查找 由 SAL 
层 实现 并 提供 接口 给 组 件 使 用 。 

对 于 Notification， 消 费 者 需要 事先 向 SAL 层 订 阅 所 需要 的 Notification， 一 旦 提供 
者 通过 SAL 层 发 布 Notification，SAL 层 就 会 触发 消费 者 订阅 Notification 时 注册 消息 处 
理 过 程 的 执行 , 且 执 行 过 程 是 异步 的 。Notification 的 订阅 和 发 布 由 SAL 层 实现 并 提供 接 
口 给 组 件 使 用 。 

对 于 Data 存 取 以 及 变化 通知 , 组 件 调用 SAL 层 提供 的 接口 直接 对 DataStore 进行 读 
写 ， 或 订阅 DataStore 的 数据 变化 事件 。 当 DataStore 的 数据 发 生变 化 时 ，SAL 层 就 会 触 
发 在 组 件 订 阅 数据 变化 事件 时 ， 注 册 的 事件 处 理 过 程 的 执行 ， 且 执行 过 程 是 异步 的 。 

值得 一 提 的 是 , ODL 可 以 直接 通过 Restconf 接口 触发 RPC 的 执行 或 对 DataStore 进 
行 读 写 。 此 时 ，Restconf 客户 端 可 以 看 成 是 消费 者 组 件 ，RPC 的 执行 和 对 DataStore 的 读 
写 最 终 均 由 SAL 层 提供 的 服务 完成 。 

在 实现 组 件 与 SAL 层 解 耦 的 过 程 中 , Yang 和 Yangtool 起 到 了 至 关 重 要 的 作用 。RPC 
和 Notification 均 由 消费 者 使 用 Yang 定义 ， 对 应 的 接口 定义 及 消息 解析 代码 均 由 Yangtool 
自动 生成 , 提供 者 与 SAL 层 之 间 , 以 及 消费 者 与 SAL 层 之 间 , 使 用 由 同一 RPC 和 Notification 
的 Yang 定义 生成 的 API 定义 ， 组 件 间 API 定义 和 变化 不 再 需要 修改 SAL 层 代 码 。 

在 DataStore 的 实现 上 ，SAL 层 定义 了 一 组 对 DataStore 进行 存 取 的 标准 接口 ， 实 现 
这 组 接口 的 DataStore 组 件 可 以 以 插件 形式 , 插入 到 ODL 中 。SAL 层 定义 的 这 组 接口 以 
DataStore 对 数据 以 Yang 模型 的 建 模 为 基础 ,数据 读 写 接口 都 带 有 目标 节点 的 Yang 路径 。 

ODL 模块 数据 的 配置 加 载 及 保存 实现 技术 中 也 用 到 了 Yang 模 型 ,模块 在 对 应 的 JAR 
包 中 包含 对 配置 数据 进行 建 模 后 的 Yang 文件 ， 在 模块 加 载 时 ， 会 扫描 模块 JAR 包 中 包 
含 的 配置 模型 Yang 文件 ， 并 对 其 进行 实时 编译 ， 生 成 中 间 结 果 ， 对 配置 数据 的 存 取 正 
是 利用 这 一 中 间 结 果 ， 将 配置 数据 的 型 和 值 结合 起 来 的 。 

综 上 所 述 ， 在 组 件 间 API 的 定义 、DataStore 的 实现 以 及 模块 配置 的 存 取 实 现 上 ， 都 
应 用 了 Yang 模型 。 因 此 ， 演 进 后 的 SAL 又 称 为 MD-SAL， 即 Model-Driven SAL。 基 于 
MD-SAL 的 ODL 架构 , 解决 了 基于 AD-SAL 的 ODL 架构 的 分 布 式 中 间 件 和 模型 的 定义 
耦合 在 一 起 带 来 的 问题 ， 使 得 SAL 层 可 以 专注 实现 分 布 式 中 间 件 相关 功能 ， 而 不 必 感 知 
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任何 业务 有 逻辑， 无 论 是 协议 组 件 还 是 业务 应 用 组 件 逻 辑 。 

通过 ODL 的 MD-SAL 分 布 式 中 间 件 ， 其 实 可 以 构建 任何 软件 系统 ， 而 不 仅仅 是 构建 
控制 器 平台 系统 。 控 制 器 平台 还 需要 定义 清晰 的 网 络 抽象 资源 和 网 元 抽象 资源 ， 以 便 对 上 
层 网 络 业 务 应 用 屏蔽 底层 多 厂家 转发 器 模型 的 差异 。 这 些 功 能 在 ODL 的 Basic Network 
Functions 部 分 进行 了 部 分 定义 ， 但 是 大 部 分 抽象 网 元 资源 模型 并 没有 被 定义 ， 也 就 是 
AD-SAL 的 标准 抽象 模型 的 定义 并 没有 得 到 关注 ， 这 也 是 未 来 ODL 应 该 重点 考虑 和 关注 
的 。 因 为 没有 统一 的 抽象 模型 定义 ， 就 没有 办 法 对 上 层 屏蔽 底层 多 厂家 转发 器 的 差异 , 来 
隔离 上 层 网 络 业务 应 用 和 底层 多 厂家 转发 器 。 只 有 控制 器 平台 定义 了 抽象 模型 ， 这 样 上 层 
网 络 业 务 应 用 程序 只 要 调用 这 个 统一 的 抽象 模型 来 实现 , 就 能 使 得 底层 转发 器 可 以 被 多 厂 
家 替换 ， 最 终 使 得 上 层 网 络 业务 应 用 程序 和 底层 多 厂家 转发 器 可 以 被 灵活 替换 。 

2. 网 络 服务 层 

这 个 部 分 主要 提供 一 些 网 络 拓 扑 、 统计 、 主 机 管理 等 服务 , 这 些 都 是 网 络 资源 数据 。 
ODL 定义 的 这 些 服务 可 以 被 第 三 方 业务 扩展 部 分 的 业务 组 件 进 行 调用 。 这 个 部 分 已 经 定 
义 了 一 些 基 本 的 网 络 服 务 ， 一 般 不 需要 厂家 自己 再 定义 模型 ， 而 且 利用 ODL 开发 控制 
器 的 厂家 也 不 应 该 修改 或 者 替换 这 个 部 分 。 这 部 分 是 一 个 网 络 操作 系统 〈 控 制 器 平台 ) 
的 核心 ， 是 最 需要 开源 控制 器 平台 做 好 的 部 分 。 这 个 部 分 如 果实 现 得 完备 可 用 ， 可 以 真 
正 屏 蔽 底层 多 厂家 差异 ， 成 为 各 个 厂家 的 控制 器 所 依赖 的 公共 平台 ， 是 非常 有 意义 的 。 
当前 ODL 版 本 的 这 个 部 分 没有 被 真正 地 关注 〈Helium 版 本 代码 规模 仅仅 7 万 行 左右 )， 
所 以 支持 的 资源 管理 部 分 相对 不 完备 。 已 经 定义 了 部 分 网 络 抽象 模型 ， 比 如 拓扑 管理 、 
统计 管理 ， 但 是 还 有 很 多 设备 资源 模型 没有 被 考虑 ， 比 如 标签 管理 、 光 波长 资源 管理 、 
VLAN 资源 管理 ， 这 些 资 源 管理 在 目前 的 Helium 版 本 还 没有 实现 。 作 为 开源 控制 器 平 
台 ， 其 关键 作用 之 一 是 定义 事实 标准 ， 未 来 应 该 加 强 网 络 服 务 层 的 开发 和 完善 ， 这 样 使 
得 这 层 能 够 成 为 标准 平台 层 ， 屏 蔽 底层 多 厂家 设备 的 差异 。 当 ODL 发 展 完善 这 个 部 分 ， 
定义 完善 的 抽象 网 络 模型 和 抽象 设备 模型 ， 这 样 才能 够 成 为 一 个 真正 的 控制 器 平台 ， 并 
起 到 事实 标准 的 作用 ， 解 决 多 厂家 转发 器 和 多 厂家 上 层 网 络 应 用 之 间 的 互 操作 问题 。 

3， 南 向 协议 

南 向 协议 中 ，ODL 里 面 已 经 集成 了 大 量 南 向 协议 组 件 ， 包 括 OpenFlow、Netconf、 
PCEP 等 ， 而 且 这 些 协议 也 是 ODL 里 面 代码 量 最 大 的 一 部 分 (有 100 多 万 行 代 码 ， 都 是 
南 向 协议 代码 )。 这 部 分 主要 是 实现 和 设备 互通 的 一 些 协议 ， 是 ODL 中 实现 较为 完备 的 
部 分 。ODL 架构 层次 里 面 没 有 清晰 的 定义 驱动 程序 层 ， 前 面 提 到 ODL 提供 了 MD-SAL 
框架 机 制 ,各 个 厂家 可 以 直接 把 自己 的 转发 设备 网 元 模型 通过 MD-SAL 进行 建 模 ， 并 开 
放 API 编程 接口 。 因 为 现在 版 本 的 ODL 没有 定义 一 个 抽象 的 转发 器 设备 模型 ， 各 个 厂 
家 也 不 用 写 个 驱动 程序 ， 来 进行 抽象 转发 器 设备 模型 到 自己 厂家 设备 模型 的 转换 了 。 不 
过 开源 组 织 其 实 应 该 扮演 一 个 事实 标准 的 角色 ， 应 该 定义 统一 的 抽象 模型 ， 并 清晰 地 定 
义 一 个 驱动 层 ， 这 才 是 比较 合适 的 。 

4. 第 三 方 网 络 业 务 应 用 扩展 

这 部 分 是 各 个 厂家 在 基于 ODL 实现 控制 器 时 ， 需 要 自己 实现 控制 器 网 络 业 务 应 用 
程序 的 地 方 ， 也 是 各 个 厂家 差异 竞争 的 关键 。 就 是 说 为 了 实现 网 络 业 务 ， 各 个 厂家 可 以 
在 这 里 完成 自己 的 网 络 业务 处 理 功 能 ， 包 括 各 种 路 径 计 算 、 路 由 计算 、 业 务 处 理 等 。 大 





212 SDN 原理 解析 一 一 转 控 分 离 的 SDN 架构 


部 分 厂家 通常 的 实现 是 ， 在 这 里 面 实现 一 个 网 络 业 务 应 用 程序 的 桩 模块 ， 真 正 的 网 络 业 
务 逻 辑 处 理 是 通过 类 似 SOA 架构 在 系统 外 部 运行 的 ,通过 外 部 运行 的 业务 逻辑 和 内 部 的 
桩 模块 交互 来 获取 ODL 的 网 络 服务 或 者 把 计算 生成 转发 表 发 送 给 ODL。 或 者 说 ， 大 部 
分 厂家 的 网 络 业务 应 用 程序 部 分 ， 并 没有 基于 ODL 同样 的 编程 框架 OSGI/MD-SAL, 来 
完成 全 部 应 用 程序 的 编写 ， 而 是 把 自己 原来 已 经 实现 的 各 种 业务 逻辑 和 ODL 进行 一 个 
SOA 集成 。 这 样 做 的 好 处 是 , 厂家 的 核心 业务 逻辑 不 用 和 ODL 紧 耦 合 在 一 起 。 由 于 ODL 
在 不 断 完 善 中 可 能 会 修改 自身 的 架构 , 比如 ODL 已 经 取消 了 AD-SAL 的 支持 。 这 种 SOA 
架构 避免 了 因 ODL 的 架构 变化 ， 引 起 大 量 的 厂家 网 络 业 务 逻 辑 的 修改 问题 。 这 些 网 络 
业务 轴 辑 也 是 厂家 多 年 积累 的 资产 ， 厂 家 没有 必要 重新 开发 这 些 业 务 轴 辑 ， 造 成 无 谓 的 
资源 消耗 。 男 外 ， 这 部 分 核心 业务 逻辑 通常 是 厂家 的 核心 资产 ， 厂 家 不 会 轻易 地 把 这 些 
核心 业务 逻辑 开源 出 去 。 所 以 以 独立 的 SOA， 松 耦合 架构 集成 ， 是 目前 主要 厂家 都 采用 
的 方案 。 

5， 北 向 API 

这 部 分 定义 了 北向 业务 API 层 ， 当 前 ODL 主要 定义 了 数据 中 心 内 部 和 OpenStack 
对 接 的 业务 接口 。 由 于 ODL 主要 面向 数据 中 心 ， 数 据 中 心 已 经 存在 的 一 个 主流 开源 的 
Cloud OS 就 是 Openstack, 所 以 ODL 里 面 确实 实现 了 一 个 数据 中 心虚 拟 网 络 的 业务 北向 
接口 ， 这 些 北向 接口 也 是 Openstack 定义 的 ，ODL 作为 网 络 控制 器 与 它 对 接 上 ， 这 样 可 
以 帮助 OpenStack 完成 数据 中 心 网 络 控 制 。 正 如 前 面 介绍 的 ， 大 部 分 厂家 实现 数据 中 心 
业务 时 ， 都 使 用 了 这 个 北向 接口 ， 实 际 具 体 业务 的 代码 和 逻辑 都 不 在 ODL 中 实现 ， 而 
是 以 一 种 SOA 架构 实现 自己 的 业务 逻辑 。 

6. 第 三 方 网 络 业务 应 用 程序 

这 部 分 位 于 ODL 外 部 ， 通 常 厂家 网 络 业 务 的 实现 逻辑 都 部 署 在 这 一 层 中 ， 通 过 位 
于 .ODL 内 部 的 第 三 方 网 络 业务 应 用 扩展 内 部 的 柱 ， 一 起 形成 了 厂家 的 网 络 业务 应 用 程 
序 。 当 然 这 个 层 在 ODL 公开 架构 中 ， 还 包含 一 些 协同 层 的 应 用 程序 ， 比 如 OpenStack， 
这 样 ， 按 照 架 构 层 次 关系 ， 协 同 应 用 程序 调用 的 服务 ， 来 自 网 络 业务 应 用 程序 〈 提 供 网 
络 L2VPN、L3VPN 服务 的 程序 )， 这 些 网 络 应 用 程序 既 可 以 实现 在 ODL 内 部 ， 也 可 以 
实现 在 ODL 外 部 。 

上 面 是 ODL HELIUM 版 本 的 各 层 架 构 基 本 功能 。 


9.2.2 ”ODL 业务 功能 的 实现 过 程 


再 看 看 在 开源 ODL 里 面 实现 一 个 网 络 业务 功能 的 基本 过 程 。 

大 概 的 工作 过 程 如 图 9-13 所 示 ， 业 务 请 求 进 入 控制 器 ,厂家 业务 处 理 逻 辑 (是 实现 
网 络 业 务 应 用 程序 的 代码 ， 这 部 分 既 可 以 运行 在 ODL 外 部 也 可 以 运行 ODL 内 部 ) 会 根 
据 业 务 请 求 数据 和 ODL 管理 的 网 络 资源 (ODL 网 络 服务 )， 生 成 设备 控制 转发 数据 ， 然 
后 调用 转发 器 设备 模型 的 API， 并 通过 南 向 协议 发 送 到 转发 器 。 这 个 过 程 中 ，MD-SAL 
框架 服务 提供 一 些 基 本 服务 ， 主 要 协助 完成 设备 抽象 模型 ， 北 向 业务 模型 建 模 ， 以 及 模 
型 API 生成 功能 ， 当 然 也 会 提供 一 些 分 布 式 数据 存储 的 数据 库 、RPC 和 通知 功能 。 这 里 
的 厂家 业务 处 理 逻 辑 是 由 网 络 业 务 开 发 者 设计 编码 完成 的 ， 其 实现 的 业务 功能 可 能 包括 
路 由 协议 处 理 、 路 径 计算 、 路 由 计算 等 。 
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基于 ODL 的 控制 器 


ODL 北向 API， 业 务 模型 


ODL 网 络 服务 厂家 业务 处 理 逻 辑 


ODL 南 向 SBI， 设 备 模型 


ODL 南 向 协议 





9-13 ”ODL 网 络 业 务 功能 实现 原理 


对 于 这 个 过 程 ， 通 常 有 一 个 误解 ， 认 为 现在 的 控制 器 可 以 很 简单 、 自 动 、 不 需要 人 
工 编码 地 完成 北向 业务 模型 到 南 向 设备 模型 的 转换 ， 也 就 是 说 ， 只 要 把 北向 业务 模型 定 
义 出 来 ， 南 向 业务 模型 也 定义 出 来 ， 程 序 员 的 工作 就 完成 了 。 用 户 可 以 把 业务 请 求 发 送 
给 控制 器 ， 控 制 器 自己 就 完成 了 两 个 模型 的 转换 ， 而 不 需要 中 间 的 业务 处 理 逻 辑 了 ， 这 
个 想法 不 太 现 实 。 除 非 在 这 种 情况 下 ， 厂 家 不 将 ODL 作为 真正 的 控制 器 ， 而 把 全 部 的 
控制 面 功能 ， 无 论 网 络 内 部 交换 路 径 计 算 ， 还 是 边界 业务 接 入 路 由 的 计算 ， 都 保留 在 转 
发 设备 进行 计算 ， 也 就 是 使 用 传统 的 分 布 式 控制 面 架构 。 然 后 通过 ODL 把 网 络 业务 模 
型 分 解 为 设备 上 的 设备 配置 模型 ， 这 样 做 中 间 的 所 谓 业 务 处 理 就 基本 上 只 需要 很 少 的 逻 
辑 , 比如 分 配 MP BGP 的 RT/RD、 配置 协议 的 进程 号 等 一 些 配 置 参 数 。 本 书 前 面 讨论 过 ， 
这 种 不 进行 任何 集中 控制 的 方式 , 无 法 带 来 SDN 网 络 的 价值 , 某 种 意义 上 不 能 算是 真正 
的 SDN。 但 是 有 人 说 ， 这 种 方式 可 以 为 上 面 类 似 OSS 的 业务 ， 提 供 一 个 统一 的 OSS 平 
台 ， 因 为 利用 开源 ODL 统一 了 一 个 网 络 业务 北向 接口 平台 ， 这 样 OSS 类 似 的 应 用 程序 
就 不 用 适 配 很 多 厂家 的 网 络 设备 了 。 这 种 观点 也 有 一 定 道理 ， 但 这 种 方式 仅仅 改进 传统 
OSS 对 接 多 厂家 设备 的 问题 , 同时 也 有 一 个 巨大 障碍 要 克服 : 如 何 保 证 所 有 厂商 的 ODL 
控制 器 对 某 种 相同 业务 都 定义 相同 的 业务 模型 。 如 果 这 些 北向 业务 模型 不 同 , 厂家 不 同 ， 
那么 刚刚 讨论 的 用 ODL 为 OSS 提供 统一 平台 就 难以 实现 了 。 

为 了 实现 一 个 控制 器 ,控制 器 厂家 需要 在 ODL 的 网 络 业 务 扩展 部 分 增加 很 多 代码 ， 
为 了 实现 SDN 网 络 价值 ， 需 要 控制 器 对 网 络 集中 控制 ， 集 中 计算 网 络 内 部 的 交换 路 
径 ， 生 成 交换 路 径 转发 表 ， 也 要 为 边界 接 入 业务 进行 业务 路 由 计算 ， 生 成 业务 路 由 转 
发 表 ， 这 些 都 需要 程序 去 实现 。 尤 其 是 边界 接 入 业务 有 协议 互通 的 情况 ， 比 如 ARP、 
BGP 互通 ， 更 是 需要 程序 编码 实现 ， 不 可 能 简单 地 一 劳 永 逸 地 编写 一 个 模型 转换 程 
序 ， 以 后 各 种 业务 模型 自己 就 自动 转化 为 设备 模型 了 。 其 实 退 一 步 ， 即 使 仅仅 实现 
OSS 的 功能 , 不 进行 任何 集中 控制 ,从 网 络 业 务 模型 到 网 元 配置 模型 的 转换 也 不 是 由 
一 个 万 能 转换 逻辑 自动 转换 的 ， 也 需要 进行 编码 。 比 如 一 些 网 络 资源 数据 : BGP 
RD/RT， 都 是 北向 网 络 业 务 模型 中 没有 的 数据 ， 它 们 需要 控制 器 管理 分 配 ， 那 么 不 编 
写 代 码 是 不 可 能 的 。 
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9.2.3 ”ODL 需要 定义 标准 的 网 元 模型 和 业务 模型 


上 面 介绍 了 ODL 的 MD-SAL 是 一 个 框架 ， 提 供 一 些 服务 ， 而 这 些 服 务 可 以 用 来 构建 
ODL 控制 器 。 其 实 ， 此 框架 也 可 以 用 来 构建 其 他 任何 系统 ， 比 如 可 以 用 来 构建 游戏 系统 。 
MD-SAL 允许 各 个 厂家 利用 这 个 框架 来 定义 自己 的 北向 业务 模型 和 南 向 设备 模型 。 于 是 ， 
各 个 厂家 都 在 利用 这 个 能 力 定义 自己 的 控制 器 ,但 是 他 们 各 自 都 是 在 定义 自己 的 业务 模 
型 ， 通 过 这 个 模型 对 接 自 己 的 转发 器 ， 结 果 是 各 个 厂家 的 ODL 控制 器 不 能 进行 互 操作 。 
例如 ， 一 个 运行 了 A 厂家 控制 器 的 网 络 ，B 厂家 的 应 用 是 无 法 在 上 面 直接 运行 的 ， 而 B 
厂家 设备 也 没有 办 法 接 入 A 厂家 的 ODL 控制 器 。 主 要 原因 就 在 于 各 个 厂家 都 在 定义 自己 
的 模型 ， 而 ODL 并 没有 定义 统一 的 标准 的 网 络 北 向 业务 模型 和 南 向 设备 模型 。 

目前 基于 ODL 发 布控 制 器 的 厂家 有 不 少 ， 读 者 可 以 去 查阅 他 们 的 实现 架构 ， 这 些 
材料 可 以 通过 互联 网 搜索 到 。 现 在 大 部 分 厂家 都 是 采用 烟 - 式 的 方式 使 用 ODL， 如 
图 9-14 所 示 。 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 人 


~ 、 
/ Vendor B 
Application 
PP Table0 
le Tablel{} 
able: Table21 












OpenFlow LA、 
Adapterfor 
VendorB 





图 9-14 ”ODL 烟 身 式 开 发 模型 


架构 大 致 如 图 9-14 所 示 。Vendor (厂家 ) A 的 APP 通过 自己 的 模型 操作 自己 的 设 
备 ，Vendor B 的 APP 通过 自己 的 模型 操作 自己 的 设备 模型 ， 它 们 之 间 不 能 互 操作 。 就 是 
说 把 Vendor B 的 APP 直接 运行 在 左 侧 Vendor A 的 控制 器 上 , 就 无 法 操作 Vendor A 的 设 
备 ， 因 为 它们 操作 的 模型 不 同 ， 这 就 是 问题 的 关键 。 

解决 上 述 问题 的 关键 ， 是 MD-SAL 不 能 仅仅 定义 框架 ， 还 要 定义 标准 的 网 络 模 型 、 
抽象 网 元 模型 。 目 前 标准 的 网 络 模型 已 经 实现 了 一 部 分 ， 比 如 拓扑 的 定义 ， 但 是 ODL 
当前 没有 定义 抽象 的 标准 转发 器 模型 。 当 ODL 定义 了 完备 的 抽象 网 络 模型 和 转发 器 模 
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型 后 ， 上 面 不 管 哪个 厂家 的 APP， 都 只 能 调用 这 个 标准 的 网 络 模型 和 抽象 转发 器 模型 ， 
来 操作 网 络 和 转发 器 ， 而 设备 三 家 通过 驱动 程序 完成 三 家 设备 模型 到 标准 的 抽象 转发 器 
模型 的 对 接 ， 这 样 就 能 够 完成 互 操作 功能 。 就 是 说 ，ODL 只 有 定义 标准 的 网 元 抽象 模型 
和 网 络 抽象 模型 后 ， 才 能 很 好 地 解决 互 操作 问题 。 


9.2.4 ”ODL 分 布 式 和 可 靠 性 


ODL 的 基础 架构 采用 了 OSGI， 因 为 ODL 是 Java 编写 的 程序 ， 为 了 解决 模块 化 问题 ， 
下 层 采 用 了 OSGI 框架 。OSGI 框架 本 身 是 一 个 Java 虚拟 机 进程 里 面 的 基础 编程 框架 ， 前 面 
已 经 介绍 。OSGI 本 身 并 不 是 分 布 式 的 ，ODL 为 了 解决 分 布 式 问题 ,增加 一 个 分 布 式 系统 中 
间 件 ， 目 前 采用 的 是 一 个 AKKA 开源 的 分 布 式 中 间 件 来 解决 多 个 ODL 实例 的 分 布 式 问题 。 

ODL 当前 采用 的 分 布 式 架构 基本 上 是 采用 水 平分 布 式 来 实现 的 ， 如 图 9-15 所 示 。 
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图 9-15 ”ODL 水 平 式 分 布 架构 


ODL 的 分 布 式 多 实例 下 ， 每 个 ODL 的 服务 器 实例 可 以 控制 网 络 一 部 分 网 元 ， 这 样 
当 所 控制 网 络 的 网 元 数目 增加 时 ， 可 以 通过 简单 地 增加 更 多 服务 器 实例 到 ODL 分 布 式 
系统 中 ， 对 网 元 的 管控 进行 负荷 分 担 ， 从 而 解决 大 规模 网 络 分 布 式 管理 的 问题 。 

关于 可 靠 性 问题 ， 由 于 ODL 采用 了 分 布 式 架构 ， 每 个 转发 器 可 以 同时 连接 到 不 同 
的 ODL 服务 器 实例 ， 当 一 个 ODL 服务 器 实例 故障 时 ， 转 发 器 可 以 连接 另外 一 个 备份 的 
服务 器 实例 ， 这 样 可 以 保证 当 服务 器 故障 时 ， 系 统 还 能 够 继续 工作 。 当 前 ODL 的 故障 
恢复 过 程 周边 邻居 会 感知 到 ， 也 就 是 说 当 某 个 运行 ODL 实例 的 服务 器 故障 时 ， 注 册 到 
该 服务 器 的 转发 器 需要 重新 建立 连接 , 这 种 倒 换 技术 相当 于 传统 网 络 的 NSF 技术 。 迄今 
为 止 ， ODL 还 没有 规划 热 备份 倒 换 恢复 技术 。 


9.2.5 “期望 和 现实 的 矛盾 


分 析 一 下 现在 控制 器 厂家 如 何 使 用 ODL 来 开发 控制 器 。 使 用 ODL 开发 控制 器 的 三 
家 在 目前 阶段 主要 还 是 在 使 用 ODL 的 MD-SAL 框架 ， 通 过 定义 自己 的 转发 器 设备 模型 
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和 网 络 业务 模型 ， 来 实现 各 自 的 控制 器 。 如 果 ODL 能 够 定义 标准 的 转发 器 设备 抽象 模 
型 的 话 ， 未 来 也 可 能 有 厂家 利用 ODL 的 南 向 实现 多 厂家 设备 互通 ;如 果 这 些 北向 业务 
模型 能 够 标准 化 的 话 ， 也 可 能 有 厂家 希望 利用 ODL 的 北向 业务 模型 ， 实 现 基于 ODL 的 
应 用 程序 ， 能 够 和 各 个 三 家 的 ODL 控制 器 进行 互 操 作 ; 如 果 ODL 未 来 发 展 既 不 能 定义 
标准 转发 器 设备 抽象 模型 ， 也 不 能 定义 标准 北向 业务 模型 ， 那 么 各 个 厂家 都 各 自 利 用 
ODL 的 MD-SAL 框架 ， 定 义 各 自 的 转发 器 设备 模型 和 网 络 业务 模型 ， 结 果 导 致 各 个 厂 
家 的 控制 器 尽管 都 是 基于 ODL 的 ， 但 是 都 无 法 互 操作 。 因 为 最 终 如 果 没 有 实现 南 向 设 
备 模 型 标准 化 ， 各 个 厂家 开发 的 网 络 业务 应 用 程序 ， 必 须要 适 配 各 个 厂家 的 设备 模型 ， 
这 个 和 原来 OSS 要 适 配 多 厂家 的 设备 北向 操作 接口 是 类 似 的 。 如 果 没 有 实现 北向 业务 模 
型 标准 化 ， 那 控制 器 之 上 的 协同 层 APP 必须 要 适 配 不 同 厂家 的 ODL 控制 器 ， 因 为 它们 
的 北向 业务 模型 各 不 相同 。 当 然 ， 如 果 控 制 器 厂家 只 有 两 三 家 ， 那 么 这 些 基 于 控制 器 的 
北向 业务 模型 的 APP 可 以 只 用 对 接 两 三 家 的 业务 接口 , 并 不 复杂 。 那么 , 是 否 基 于 ODL 
实现 控制 器 就 无 所 谓 了 呢 ? 同样 地 ， 转 发 器 设备 三 家 只 要 对 接 这 两 三 家 的 控制 器 ， 也 不 
算 很 困难 。 

然而 ， 运 营 商 的 期 望 却 是 : 各 个 基于 ODL 开发 控制 器 的 厂家 交付 的 基于 ODL 的 控 
制 器 能 够 互 操 作 。 比 如 一 个 调用 ODL 网 络 服务 的 协同 层 应 用 程序 ， 如 果 和 其 中 一 个 厂 
家 的 ODL 控制 器 能 够 对 接 ， 正 常 工作 ， 那 么 也 应 该 和 其 他 厂家 基于 ODL 的 控制 器 进行 
互通 。 如 果 一 个 转发 器 厂家 的 转发 器 能 够 被 一 个 三 家 的 ODL 控制 器 进行 控制 ， 那 么 应 
该 不 用 做 任何 修改 ， 就 可 以 被 其 他 厂家 的 ODL 控制 器 所 控制 。 这 就 是 所 谓 的 互 操作 性 。 
这 样 就 能 够 做 到 任意 替换 转发 器 、 控 制 器 和 协同 层 中 的 任何 一 个 ， 比 如 可 以 独立 替换 控 
制 器 ， 也 可 以 独立 替换 转发 器 ， 还 可 以 独立 替换 上 层 的 协同 层 应 用 。 但 是 上 面 介 绍 过 的 
情况 ， 却 不 能 满足 这 样 的 要 求 。 根 据 上 面 介 绍 ， 当 新 广 家 转发 器 接 入 ODL 控制 器 ， 提 
供 了 自己 的 设备 模型 ， 控 制 器 上 的 网 络 控制 业务 APP 必须 要 修改 代码 来 适 配 这 个 新 的 
设备 模型 。 同 样 道 理 ， 北 向 业务 接口 也 是 一 样 ， 运 营 商 可 能 希望 可 以 灵活 替换 那些 基 
于 控制 器 北向 业务 接口 开发 的 协同 层 APP， 而 不 需要 修改 控制 器 ， 但 是 由 于 控制 器 北 
向 业务 接口 没有 标准 化 ， 导 致 运营 商 的 这 种 期 望 落空 。 运 营 商 还 有 一 个 需求 ， 就 是 希 
望 替换 任何 三 家 控制 器 的 时 候 ， 可 以 不 用 修改 基于 控制 器 北向 业务 接口 之 上 的 协同 导 
APP， 也 不 需要 修改 任何 转发 器 相关 的 软件 ， 但 这 也 是 无 法 实现 的 。 因 为 这 些 三 家 提 
供 的 ODL 控制 器 是 基于 ODL 烟 秽 式 开 发 的 ， 其 实 都 加 入 了 很 多 私有 的 实现 方法 。 它 
们 在 不 影响 其 他 两 层 的 前 提 下 是 不 可 以 互相 替换 的 ， 而 且 即 使 做 了 同样 的 业务 ， 都 是 
基于 ODL 实现 的 , 即使 都 是 开源 的 , 那么 到 底 使 用 哪 家 的 业务 作为 标准 呢 ? 这 种 争论 ， 
与 标准 组 织 定义 标准 的 过 程 是 一 样 的 ， 需 要 较 长 时 间 的 博弈 才能 确定 。 总 之 ， 要 达到 
控制 器 、 控 制 器 之 上 的 协同 层 APP 和 控制 器 内 部 的 网 络 业 务 APP、 转 发 器 分 层 ， 四 者 
的 灵活 替换 而 不 影响 其 他 层 ， 在 技术 手段 上 ， 其 本 质 就 是 要 定义 标准 或 者 事实 标准 ， 
这 样 多 厂家 设备 只 要 对 接 这 个 标准 的 南 向 设备 模型 ， 北 向 多 厂家 APP 都 依赖 标准 的 北 
向 业务 模型 ， 中 间 的 控制 器 上 的 控制 业务 APP 都 依赖 标准 设备 抽象 模型 ， 并 对 上 提供 
标准 控制 器 北向 业务 模型 即 可 。 只 有 这 样 ， 才 能 实现 运营 商 的 期 望 。 关 键 在 于 标准 化 ， 
没有 标准 化 ， 所 有 的 期 望都 不 可 能 。 

运营 商 期 望 的 理想 的 架构 应 该 是 如 图 9-16 所 示 的 结构 。 运 营 商 可 以 灵活 选择 基于 控 
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制 器 的 协同 层 APP 的 供应 商 ， 可 以 灵活 地 选择 控制 器 平台 ， 可 以 灵活 地 选择 网 络 业务 
APP， 可 以 灵活 地 选择 转发 器 供应 商 ， 这 是 一 种 期 望 中 的 理想 模型 。 总 之 ， 要 实现 各 层 
独立 替换 ,最 重要 的 工作 是 标准 化 层 间 接口 。 运 营 商 本 来 最 希望 使 用 开源 控制 器 的 模式 : 
直接 从 开源 社区 下 载 版 本 就 可 以 商用 ， 或 者 由 一 个 服务 提供 商 直 接 下 载 开源 控制 器 提供 
给 运营 商 , 而 这 个 服务 提供 商 存在 的 价值 就 是 软件 维护 , 比如 软件 安装 、 调 试 、 软 件 BUG 
的 解决 、 少 量 定制 化 需求 的 满足 ， 与 现在 很 多 厂家 使 用 Linux 的 做 法 类 似 。ODL 当前 的 
氨 版 本 〈Helium) 还 不 能 满足 这 样 的 要 求 。 上 面 描述 的 也 是 一 种 网 络 水 平整 合 的 模式 ， 
运营 商 期 望 的 逐 层 水 平整 合 网 络 的 架构 如 图 9-16 所 示 。 


厂家 1 基于 控制 器 的 协同 层 APP1 厂家 2 基于 控制 器 的 协同 层 APP2 


控制 


器 
统一 的 标准 化 的 北向 业务 模型 


厂家 1 网 络 业务 厂家 2 网 络 业务 


统一 的 南 向 设备 抽象 模型 
设备 厂商 1 驱动 程序 设备 厂商 2 驱动 程序 


| 设备 厂商 1 转发 设备 设备 厂商 2 转发 设备 


图 9-16 运营 商 期 望 的 SDN 网 络 模型 








再 澄清 一 下 控制 器 的 协同 层 APP《〈 协 同 层 应 用 程序 ) 和 网 络 业务 APP《 网 络 业务 应 
用 程序 ) 的 区 别 ， 因 为 本 文 不 少 地 方 都 使 用 了 这 两 个 术语 。 基 于 控制 器 的 协同 层 APP 通 
常 是 调用 控制 器 的 北向 业务 API， 把 控制 器 所 控制 的 网 络 看 成 黑 盒 ， 这 样 的 APP 只 希望 
网 络 提供 一 个 服务 ， 而 并 不 关心 网 络 内 部 如 何 实现 这 些 业 务 。 比 如 一 个 APP 可 以 调用 控 
制 器 提供 的 L2VPN 业务 接口 ， 创 建 一 个 L2VPN 业务 , 但 是 对 于 控制 器 内 部 如 何 实现 这 
个 L2VPN 业务 ，APP 并 不 关心 。 实 现 这 个 L2VPN 业务 的 控制 器 内 的 软件 程序 ， 被 称 作 
是 网 络 业务 APP 或 者 网 络 控制 业务 APP, 因为 它们 实际 是 通过 操作 网 络 内 部 的 设备 来 实 
现 L2VPN 业务 的 ， 对 于 网 络 业 务 APP 看 来 ， 控 制 器 控制 的 网 络 对 它 而 言 是 白 盒 的 ， 这 
些 APP 会 直接 操控 网 络 中 的 网 元 。 网 络 协同 层 APP 调用 控制 器 提供 的 业务 接口 通常 正 
是 网 络 业 务 APP 软件 程序 提供 的 接口 。 


9.3 ONOS 控制 器 架构 
ONOS (Open Network OS， 开 放 网 络 操作 系统 ) 是 斯 坦 福 大 学 的 ON.LAB 实验 室 开 


发 的 一 个 开源 网 络 操作 系统 ， 主 要 面向 运营 商 WAN 网 络 。 该 系统 于 2014 年 12 月 发 布 
了 第 一 个 开源 版 本 ， 其 实现 架构 如 图 9-17 所 示 。 
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图 9-17 ONOS 架构 图 

从 这 个 架构 可 以 看 到 , ONOS 整个 体系 架构 和 SDN 网 络 体系 架构 是 一 样 , 首先 分 为 
三 个 大 层次 。 底 层 是 转发 器 层 ， 中 间 是 网 络 操作 系统 (也 就 是 ONOS)， 上 层 是 协同 层 应 
用 层 。 中 间 的 网 络 操作 系统 是 ONOS 实现 的 核心 部 分 ， 本 身 又 分 为 两 个 主要 部 分 ， 其 中 
一 部 分 是 ONOS Core 核心 层 ， 是 处 于 NBI (NorthBound Interface， 北 向 接口 ) 和 SBI 
(SouthBound Interface， 南 向 接口 ) 中 间 的 部 分 。ONOS 的 核心 层 包 括 南 向 接口 、 北 向 接 
口 和 中 间 的 Core 部 分 。 中 间 的 Core 部 分 实际 上 又 细 分 为 两 层 ， 资源 管理 子 层 ， 实 现 了 
包括 拓扑 管理 、 流 表 管 理 、 标 签 管理 、 设 备 管理 等 功能 ， 另 外 一 个 子 层 是 网 络 业务 层 ， 
这 一 层 通常 叫 作 Intent。Intent 是 一 个 可 扩展 的 子 层 ， 网 络 控制 业务 开发 厂家 可 以 自己 定 
制 和 增加 Intent 来 实现 各 种 网 络 业务 。ONOS 的 南 向 SBI 和 北向 NBI 都 是 明确 定义 的 接 
口 ， 也 就 是 ONOS 通过 Core 层 定义 了 抽象 的 转发 器 设备 模型 并 提供 标准 的 南 向 接口 ， 
所 有 厂家 设备 驱动 都 需要 对 接 这 个 ONOS 定义 的 标准 南 向 ; 所 有 的 APP 都 需要 调用 ONOS 
定义 和 提供 的 标准 北向 。 这 样 通过 中 间 的 这 个 Core 层 ， 实 际 上 起 到 了 屏蔽 底层 多 厂家 差 
异 的 能 力 ， 也 对 底层 多 厂家 屏蔽 了 上 层 各 种 网 络 控制 业务 APP。 也 就 是 说 ， 正 是 这 个 Core 
层 的 存在 ， 隔 离 了 底层 转发 设备 和 网 络 业务 控制 APP， 使 得 所 有 APP 和 转发 器 都 和 Core 
层 打 交道 。 这 样 避免 了 前 面 提 到 的 基于 开源 ODL 的 控制 器 厂家 烟 向 式 利 用 开源 控制 器 的 
问题 ，ONOS 强制 所 有 的 APP 只 能 和 ONOS Core 提供 的 北向 NBI 打交道 ， 所 有 的 厂家 转 
发 器 也 只 能 跟 ONOS Core 提供 的 SBI 打交道 ， 这 个 架构 原则 是 和 ODL 有 本 质 不 同 的 。 

另 一 个 部 分 是 转发 器 厂家 的 Provider 层 。 这 个 Provider 层 可 以 理解 为 是 厂家 设备 驱 
动 层 。 在 这 一 层 分 为 两 个 子 层 : 一 个 南 向 协议 子 层 ，ONOS 开源 代码 会 提供 这 个 部 分 ; 
另外 一 个 子 层 就 是 厂家 驱动 层 ， 基 本 上 需要 厂家 自行 实现 驱动 ， 主 要 工作 是 向 上 对 接 
ONOS SBI， 向 下 对 接 厂家 自己 的 设备 北向 ， 功 能 是 实现 ONOS 的 标准 南 向 到 厂家 设备 
接口 转换 和 模型 转换 工作 。 

ONOS 的 基础 框架 和 ODL 一 样 采用 了 OSGI 模块 化 框架 ， 并 采用 Hazelcast 作为 其 分 
布 式 中 间 件 。ONOS 有 个 专门 的 架构 团队 ， 控 制 着 ONOS 的 Core 的 架构 ， 确 保 这 个 部 分 
架构 能 够 满足 运营 商 WAN 的 大 规模 分 布 式 能 力 、 高 性 能 、 高 可 靠 性 能 力主 要 架构 需求 。 

ONOS 重点 关注 运营 商 的 WAN 需求 ， 其 2014 年 12 月 公布 的 主要 WAN 场景 用 例 包括 : 
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Q 移动 回 传 了 下 RAN 网 络 用 例 ， 由 华为 提出 ， 主 要 解决 移动 回 传 网 络 的 SDN 化 ， 
通过 ONOS 的 SDN 控制 器 对 网 络 进行 简化 ， 并 实现 业务 自动 化 。 文 持 MPLS L3VPN 自 
动 部 署 和 集中 控制 。 

@NEFV 的 Central Office 用 例 , 由 AT&T 提出 , 主要 解决 运营 商 的 POP 点 云 化 问题 ， 
把 原来 POP 点 的 各 种 业务 进行 云 化 ， 实 现 灵活 的 业务 部 署 和 业务 创新 。 

@ IP+ 光 用 例 , 由 AT&T 提出 ， 主 要 解决 PP 网 络 和 光 网 络 如 何 进行 统一 的 网 络 联合 
路 径 规 划 和 路 径 选 路 调整 。 通 过 SDN 控制 器 实现 灵活 的 网 络 规划 能 力 ， 并 能够 提高 整个 
IP 和 光 网 络 的 业务 吞吐 能 力 ， 提 高 整个 网 络 的 可 靠 性 ， 其 主要 技术 背景 就 是 把 IP 和 光 
网 的 资源 进行 统一 管理 、 统 一 计算 来 达成 高 效 、 高 可 靠 的 IP+ 光 网 络 。 

由 SegmentRouting (SR) 分 段 路 由 用 例 ， 主 要 研究 若干 通过 分 段 路 由 技术 ， 来 解决 
WAN 网 络 的 MPLS 标签 有 限 的 情况 下 ,满足 大 规模 TE 隧道 的 能 力 。 当 然 ， 这 个 技术 不 
适合 大 规模 网 络 ， 适 合 一 些 骨 干 网 类 型 的 网 络 ， 因 为 SR 仅仅 适合 跳 数 不 太 多 的 网 络 。 
SR 技术 有 个 天 生 缺 陷 就 是 多 层 标 签 ， 所 以 不 要 把 这 个 技术 部 署 在 较 大 型 , 需要 很 多 跳 ( 比 
如 4 跳 以 上 ) 的 网 络 。 

@ SDN IP 组 大 网 用 例 , 主 要 验证 大 规模 的 WAN 网 络 的 管控 能 力 , 并 完成 独立 ONOS 
控制 网 络 和 传统 网 络 互通 能 力 验证 。 这 些 场景 都 是 面向 WAN 设计 和 开发 的 ， 满 足 运营 
商 的 需求 。 

ONOS 目前 的 主要 成 员 包 括 运营 商 、 设 备 供应 商 、 大 学 研究 机 构 三 种 产业 链 力量 。 
其 中 运营 商 包 括 美国 的 AT&T、 韩 国 SKT、 日 本 NTT 等 ; 设备 供应 商 包括 华为 、CISCO、 
NEC、ERICSSON、FUJITSU、INTEL 等 ; 研究 机 构 主要 是 斯 坦 福 大 学 的 ON.LAB， 伯 
克利 大 学 也 参加 了 相关 研究 。 这 和 其 他 开源 组 织 不 同 ， 运 营 商 在 其 中 有 很 大 的 话语 权 。 
在 ONOS 章程 中 ， 其 BOARD 定义 了 四 个 技术 控制 组 ， 包 括 需求 组 、 技 术 架 构 组 、 测 试 
验证 组 和 社区 管理 ， 其 中 需求 组 成 员 全 部 为 运营 商 成 员 ， 并 且 在 各 种 表决 投票 的 权利 分 
配 上 ， 运 营 商 总 体 占 50% 的 投票 权利 ， 这 样 从 运作 机 制 上 保证 了 运营 商 作 为 客户 可 以 控 
制 开 源 ONOS 的 需求 走向 。 

再 总 结 一 下 ONOS， 其 架构 特点 是 提供 一 个 细 腰 的 ONOS 控制 嚣 平台， 通过 这 个 细 
腰 的 平台 直接 屏蔽 底层 设备 多 厂家 的 差异 ， 避 免 各 个 厂家 的 烟 奥 式 开发 ， 相 当 于 提供 了 
一 个 统一 的 标准 层 。 同 时 ONOS 是 面向 运营 商 WAN 网 络 设计 的 ， 关 注 运 营 商 的 主要 质 
量 属性 : 大 规模 分 布 式 、 性 能 、 可 靠 性 ， 其 主要 的 应 用 场景 都 是 面向 WAN 网 络 。 

当然 ， ONOS 细 腰 架构 决定 了 它 希望 直接 定义 标准 的 抽象 网 元 模型 和 网 络 模 型 ， 这 一 
点 更 符合 运营 商 和 企业 客户 对 开源 控制 器 的 期 望 。 开 源 ONOS 当前 的 成 熟 度 距离 真正 商用 
还 有 距离 ， 需 要 增加 功能 并 持续 地 改进 。 所 以 基于 ONOS 开发 控制 器 的 厂家 需要 投入 不 小 
的 精力 对 ONOS 进行 增强 和 改进 ， 才 能 满足 用 户 的 功能 和 质量 需求 。 

获取 更 多 ONOS 的 研究 进展 信息 ， 请 进入 网 站 http://onosproject.org/ 了 解 。 


9.4 基于 开源 控制 器 平台 构建 厂家 控制 器 


如 果 控 制 器 开发 商 希 望 基于 开源 控制 器 构建 自己 的 控制 器 ， 这 里 也 给 出 一 些 可 能 的 
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推荐 方法 。 下 面 介绍 关于 如 何 基 于 开源 控制 器 平台 ， 构 建 厂家 控制 器 。 

什么 是 基于 开源 控制 器 ? ONOS/ODL 开源 控制 器 都 是 基于 Java 的 OSGI 框架 的 一 个 系 
统 ， 为 了 实现 分 布 式 ， 也 都 采用 了 一 些 开源 的 分 布 式 软 件 ， 比 如 ONOS 采用 HAZALCAST， 
ODL 采用 AKKA 开源 软件 实现 分 布 式 。 这 个 OSGI 模块 化 框架 以 及 AKKA 等 分 布 式 中 间 
件 , 与 开源 控制 器 其 实 没 有 什么 关系 。 开 源 控制 器 只 是 选择 了 这 些 作为 其 基础 开发 编程 环 
境 和 框架 。 真 正 属于 开源 控制 器 ONOS/ODL 提供 的 服务 ， 包 括 网 络 资源 管理 、 网 元 转发 
表 管理 等 ， 这 些 在 控制 器 分 层 中 属于 网 络 操作 系统 范畴 ， 这 些 服 务 才 是 真正 的 开源 控制 器 
提供 的 有 价值 的 地 方 。ONOS/ODL 采用 的 基础 编程 框架 OSGI 不 是 ONOS/ODL 价值 所 
在 。 其 相似 的 比较 就 如 同 我 们 要 开发 一 个 游戏 程序 ， 需 要 选择 一 个 游戏 引擎 ， 假 定 这 个 游 
戏 引擎 是 基于 OSGI 框架 开发 的 ， 这 个 游戏 程序 就 必须 依赖 游戏 引擎 。 游 戏 引擎 就 是 一 个 
游戏 的 开发 平台 ， 对 于 一 个 游戏 来 说 ， 选 择 什么 样 的 游戏 引擎 至 关 重 要 ， 但 游戏 引擎 所 依 
赖 的 OSGI 框架 不 是 这 个 游戏 看 中 的 价值 。 所 以 ， 通 常 说 要 基于 开源 控制 器 构建 自己 的 控 
制 器 ， 其 实 是 说 需要 调用 开源 控制 器 提供 的 网 络 相关 的 资源 操作 接口 来 控制 转发 器 ， 而 不 
是 说 开发 的 控制 器 应 用 程序 也 一 定 要 采用 开源 控制 器 所 采用 的 相同 基础 编程 框架 。 

基于 开源 控制 器 平台 开发 一 个 控制 器 ， 到 底 该 怎么 做 才 合 适 昵 ? 有 三 种 方案 ， 见 
图 9-18 中 标示 的 1 APP，2APP，3APP 三 个 位 置 。 


pe re se 
me 





i 


~ Core / 2 APP 
i , 8 
™ .Device, Host, Link, Topology, Path, Flow 小 Distributed Core 
be Packet+Intent, Network, ... 
| Provider API 
DEVM | LinkM Horid | powM]| PackeMl| [= 
Network Environment Networlke Elements 


图 9-18 基于 ONOS 实现 控制 器 的 三 种 方案 


第 一 种 实现 方案 (图 9-18 的 1APP) 是 ,通过 调用 开源 控制 器 提供 的 北向 RESTFUL 
接口 来 实现 自己 的 应 用 程序 。 这 样 控制 器 的 整体 构成 包括 一 个 开源 的 控制 器 系统 和 一 个 
自己 开发 的 应 用 程序 ， 整 体 是 一 个 控制 器 系统 。 这 些 应 用 程序 和 开源 控制 器 的 交互 是 通 
过 RESTFUL 通信 完成 的 。 这 种 架构 是 一 种 完全 松 耦 合 架 构 ， 开 发 出 来 的 应 用 程序 具有 
良好 的 可 移植 性 ， 比 如 开发 一 个 应 用 程序 后 ， 很 容易 让 这 个 应 用 程序 运行 在 开源 控制 器 
ODL 或 者 开源 控制 器 ONOS， 甚 至 是 运行 在 某 个 特定 私有 控制 器 平台 上 ， 只 需要 修改 适 
配 层 。 而 且 这 种 松 耦 合 架构 ， 不 需要 修改 开源 控制 器 本 身 ， 就 可 以 使 得 开源 控制 器 的 其 
他 第 三 方 应 用 无 颖 地 运行 在 该 厂家 发 布 的 控制 器 系统 上 ， 原 因 是 这 种 松 耦 合 架 构 基 本 保 
持 了 原生 的 开源 控制 器 系统 。 
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第 二 种 实现 方案 (图 9-18 的 2APP) 是 ， 开 发 基于 开源 控制 器 的 控制 应 用 程序 ， 这 
些 应 用 程序 运行 在 开源 控制 器 平台 内 部 ， 艇 入 式 运 行 ， 使 用 与 开源 控制 器 平台 相同 的 编 
程 框架 开发 。 这 样 ， 应 用 程序 不 仅 使 用 开源 控制 器 提供 的 价值 服务 〈 即 各 种 网 络 相 关 编 
程 接口 ， 采 用 Java API 调用 )， 而 且 使 用 和 开源 控制 器 完全 相同 的 编程 框架 服务 ， 比 如 
使 用 了 OSGI 编程 框架 和 AKKA 分 布 式 服务 ; 更 进一步 地 ， 还 必须 和 开源 控制 器 平台 一 
起 紧 耦 合 部 署 运 行 。 如 果 是 仅仅 使 用 与 开源 控制 器 相同 的 基础 服务 框架 OSGI 框架 和 
AKKA 服务 ， 而 采用 松 耦 合 架构 部 署 运行 ， 通 过 RESTFUL 调用 开源 控制 器 平台 的 网 络 
服务 ， 那 本 质 就 属于 第 一 种 方案 的 架构 了 。 所 以 第 二 种 方案 的 关键 特征 有 两 点 : 

Q 不 仅 采 用 与 开源 控制 器 平台 相同 的 编程 框架 ， 而 且 通 过 本 地 Java API 调用 开源 
控制 器 平台 提供 的 网 络 相 关 资 源 访问 接口 ; 

@ 要 嵌入 运行 在 开源 控制 器 平台 一 起 ， 就 是 说 要 部 署 在 一 个 Java 进程 运行 。 

这 种 架构 下 ， 这 些 应 用 程序 会 受到 开源 控制 器 变更 的 影响 。 比 如 前 面 ODL 采用 
AD-SAL 框架 ,有 厂家 基于 AD-SAL 和 骨 入 开发 了 应 用 程序 (采用 了 这 里 说 的 第 二 种 方式 )， 
结果 ODL 的 架构 调整 了 , 直接 废弃 了 AD-SAL, 那么 这 些 利用 AD-SAL 开发 内 骨 在 ODL 
的 应 用 程序 就 需要 重新 开发 。 如 果 采 用 上 面 第 一 种 架构 就 不 存在 这 种 问题 。 所 以 ， 作 为 
一 个 厂家 利用 开源 控制 器 构建 控制 器 时 ， 采 用 这 种 紧 耦 合 架构 嵌入 开源 控制 器 的 方法 是 
不 太 合适 的 。 当 然 ， 这 种 方案 仍然 有 用 途 ， 比 如 开源 组 织 本 身 开 发 的 应 用 程序 ， 通 常 来 
讲 会 采用 这 种 架构 ; 还 有 一 种 场景 就 是 一 个 厂商 对 开源 控制 器 有 足够 的 影响 力 和 控制 力 ， 
确保 自己 开发 的 应 用 程序 不 会 因为 开源 控制 器 架构 的 变化 而 浪费 。 

第 三 种 方案 (图 9-18 的 3APP)， 和 第 一 种 方案 有 些 类 似 ， 也 是 松 耦 合 架构 ， 只 是 调 
用 网 络 资源 接口 ， 是 通过 内 基 在 开源 控制 器 内 部 的 桩 程序 ， 调 用 开源 控制 器 的 Java APTL， 
来 获得 各 种 资源 访问 ， 然 后 这 个 桩 程序 和 运行 在 外 部 的 应 用 程序 进行 一 些 高 性 能 通信 ， 比 
如 通过 SOCKET 等 通信 接口 通信 。 这 种 方案 本 质 上 是 提高 了 性 能 的 第 一 种 方案 ， 它 是 第 
一 种 方案 的 变种 。 该 方案 和 第 一 种 方案 的 区 别 是 接口 形式 不 同 : 第 一 种 方案 是 REST， 第 
三 种 是 通过 Java API 和 私有 的 通信 消息 方式 进行 。 这 种 方式 也 是 把 核心 的 控制 类 应 用 程序 
都 独立 运行 在 开源 控制 器 外 部 ， 是 一 种 松 耦 合 架构 ， 也 有 人 称 之 为 SOA 架构 。 一 个 厂家 
如 果 开 发 一 个 基于 开源 控制 器 的 控制 器 ， 建 议 把 应 用 程序 独立 运行 ， 不 要 和 开源 控制 器 耦 
合 在 一 起 。 因 为 这 样 带 来 了 两 种 好 处 : 可 以 保证 原生 的 开源 控制 器 应 用 程序 的 运行 环境 ， 
使 得 原生 第 三 方 应 用 程序 很 容易 运行 在 自己 发 布 的 控制 器 上 面 ; 也 保证 了 这 些 网 络 控制 应 
用 程序 可 以 容易 地 在 多 厂家 控制 器 平台 上 运行 。 

厂家 可 以 采用 上 述 三 种 方案 中 的 任意 一 种 ， 根 据 自己 的 实际 情况 和 战略 诉求 进行 选 
择 。 从 客户 层面 看 ， 客 户 不 会 要 求 一 个 厂家 必须 用 Java 语言 开发 控制 器 ， 也 不 会 要 求 厂 
家 必须 使 用 与 开源 控制 器 平台 相同 的 编程 框架 ， 更 不 会 要 求 厂家 开发 的 程序 必须 通过 
Java 语言 ， 并 且 还 必须 和 开源 控制 器 一 起 ， 运 行 在 一 个 JVM 里 面 。 客 户 层面 关心 的 是 
厂家 提供 的 控制 器 能 否 解决 第 三 方 厂家 设备 互通 的 问题 ， 能 否 解 决 第 三 方 厂家 应 用 互通 
的 问题 ， 客 户 更 关注 厂家 提供 的 控制 器 是 否 满足 可 靠 性 、 性 能 、 安 全 性 、 互 操作 性 等 质 
量 属性 要 求 。 其 实 客户 关注 开源 控制 器 本 身 就 是 出 于 利益 考虑 ， 开 源 控 制 器 能 够 解决 的 
问题 ， 包 括 互 通 问题 、 产 业 链 问题 ， 总 体 上 都 是 出 于 购买 成 本 和 维护 成 本 考虑 ， 但 前 提 
是 功能 要 能 够 提供 ， 否 则 成 本 低 也 没有 用 。 
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9.5 对 比 总 结 
上 述 分 析 了 华为 控制 器 以 及 开源 的 ODL 和 ONOS 控制 器 实现 架构 ， 这 里 进行 一 个 
简单 的 对 比 ， 见 表 9-1。 


表 9-1 不 同 控制 器 的 对 比 














基于 OSGI 模块 化 框架 ， 
仅 支 持 单 进程 , 提供 基于 


基于 OSGI 模块 化 框 
架 ， 仅 支持 单 进程 ， 支 







组 件 化 框架 ， 支持 多 进程 多 线程 ; 






框架 。 | 定义 统一 的 南 向 模型 和 北向 模型 “| 模型 驱动 的 扩展 方式 , 厂 | 持 细 腰 架构 ， 定 义 统一 
家 自行 扩展 模型 的 南 向 和 北向 模型 
分 布 式 框架 | 基于 成 熟 的 华为 管道 O08 基于 开源 的 AKKA 基于 开源 的 Hazelcast 
分 布 式 模式 | 垂直 和 水 平分 布 式 水 平分 布 式 乖 直 和 水 平分 布 式 
开发 语言 | 主要 是 C 语言 ， 支 持 Java/ Pathon | 主要 是 Java 语言 主要 是 Java 语言 
可 委 性 模式 | 支持 成 就 的 控制 器 集 群 的 不 同 断 | 不 成 熟 ， 不 支持 协议 不 | 不 成 熟 ， 不 支持 协议 不 
EE 协议 倒 换 和 异地 多 控制 器 热 备份 | 间断 间断 
开放 性 | 开放 的 控制 器 开源 控制 器 开源 控制 器 


应 用 场景 | 面向 全 场景 ， 包 括 WAN/ DC 目前 主要 面向 DC 主要 面向 WAN 


支持 网 络 
迁移 演进 “| 支持 传统 协议 和 现 网 互通 仅仅 支持 ARP 由 控制 应 用 程序 提供 
集成 丰富 的 电信 运 维 体验 系统 ， 

Helium 设计 没有 考虑 。 | 目前 设计 没有 考虑 


支持 丰富 的 告警 、 性 能 、 统计 , 操 
作 易 用 性 好 

总 体 上 看 ， 华 为 控制 器 相对 比较 成 熟 ， 功 能 特性 丰富 ， 是 一 个 好 的 商用 选择 ， 而 开 

源 控制 器 目前 各 个 方面 还 都 不 成 熟 ， 可 能 需要 较 长 时 间 才 能 满足 商用 需求 。 









9.6 ”开源 控制 器 的 个 人 理解 


如 果 控 制 器 真 的 要 能 够 达成 屏蔽 底层 多 厂家 ， 并 隔离 应 用 和 转发 器 之 间 的 复杂 关系 
的 目的 , 本 质 上 必须 在 层 间 定义 标准 才能 达到 。 目 前 已 经 有 一 些 标准 协议 ,比如 OpenFlow 
协议 ， 就 是 定义 控制 器 和 转发 器 之 间 的 标准 。 一 旦 层 间 标准 成 熟 ， 层 间 协 议 问 题 就 解决 
了 ， 于 是 通过 层 间 标准 协议 就 可 以 达到 分 层 隔 离 的 目的 。 而 开源 是 希望 从 另外 一 个 角度 
来 推动 层 间 协 议 标 准 化 ，ONOS 单刀 直入 直接 定义 了 自己 的 标准 层 ， 而 ODL 目前 定义 
了 一 个 模型 驱动 框架 ， 标 准 模型 部 分 还 没有 定义 ， 至 于 何 时 能 定义 并 不 能 预见 。 在 这 些 
标准 定义 出 来 之 前 , 为 了 解决 多 厂家 互 操 作 问 题 ,传统 类 似 OSS 对 接 多 厂家 网 络 设备 时 
进行 的 适 配 工作 就 是 不 可 避免 的 。 但 是 如 果 控 制 器 厂家 没有 那么 多 的 话 ， 比 如 只 有 两 三 
家 ， 则 这 个 工作 在 工程 上 也 是 可 行 和 可 接受 的 。 
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开源 控制 器 对 客户 需求 的 满足 程度 和 需求 响应 速度 比 起 厂家 交付 的 控制 器 会 有 很 
大 差距 。 其 原因 非常 清楚 ， 开 源 控 制 器 是 由 开源 组 织 来 组 织 规划 、 开 发 、 交 付 的 ， 开 
源 组 织 本 身 是 松散 的 、 民 主 的 、 不 聚焦 的 ， 各 方 利益 的 博弈 过 程 会 相当 漫长 ， 而 且 开 
源 控制 器 的 售后 服务 等 方面 也 存在 问题 。 因 此 可 能 没有 哪个 客户 会 直接 使 用 开源 控制 
器 ， 最 多 是 使 用 厂家 基于 开源 控制 器 构建 的 控制 器 。 现 阶段 购买 的 某 个 厂家 基于 开源 
控制 器 开发 的 控制 器 ， 对 于 互 操 作 性 肯定 有 不 完备 的 地 方 ， 导 致 无 法 互 操 作 ， 其 原因 
是 开源 控制 器 确定 事实 标准 的 能 力 还 相对 比较 弱 , 短 时 间 内 可 能 无 法 解决 互 操作 问题 。 
当然 ， 未 来 随 着 开源 控制 器 的 逐渐 成 熟 ， 其 内 部 定义 事实 标准 被 广泛 接受 ， 则 这 种 互 
操作 性 就 有 可 能 实现 。 

开源 控制 器 不 管 是 ODL 还 是 ONOS， 最 应 该 聚焦 定义 的 是 开源 控制 器 平台 ， 为 各 种 
网 络 应 用 提供 抽象 统一 的 网 络 资源 访问 服务 。 开 源 控制 器 应 该 仅仅 定义 那些 与 网 络 相关 的 
资源 数据 ， 而 不 应 该 关注 网 络 业务 应 用 程序 。 网 络 业务 应 用 程序 是 随 着 用 户 需 求 变化 的 ， 
用 户 需求 是 多 种 多 样 的 、 不 稳定 的 ， 作 为 一 个 开源 控制 器 ， 是 无 法 适应 各 种 业务 需求 ， 随 
时 发 布 新 的 网 络 业 务 应 用 程序 的 。 所 以 网 络 业 务 应 用 程序 应 该 交 给 控制 器 开发 厂家 来 实 
现 , 而 控制 器 开源 组 织 只 要 聚焦 做 好 网 络 数据 的 抽象 描述 和 管理 ,提供 一 个 好 用 的 完备 的 
控制 器 平台 ， 就 可 以 真正 促进 产业 的 发 展 。 因 为 毕竟 网 络 数据 本 身 的 变化 是 缓慢 的 ， 每 年 
增加 不 了 一 两 个 新 的 转发 格式 , 所 以 开源 控制 器 是 可 以 满足 这 种 缓慢 的 网 络 本 身 数 据 模型 
的 变化 。 而 现在 的 ODL 和 ONOS 都 有 一 个 所 谓 的 Intent 或 者 网 络 业务 层 ， 这 部 分 其 实 不 
应 该 作为 开源 控制 器 的 重点 来 研究 。 换 名 话说 , 开源 控制 器 应 该 实现 一 个 网 络 操作 系统 (对 
于 个 人 计算 机 产业 的 Linux 和 Windows)， 而 不 应 该 把 精力 放 到 如 何 实 现 这 个 网 络 操作 系 
统 上 的 各 种 网 络 业务 应 用 程序 方面 ， 比 如 L2VPN、L3VPN 等 。 

开源 软件 和 厂家 独立 交付 软件 之 间 的 竞争 在 历史 上 发 生 了 很 多 次 ， 最 为 著名 的 例 
子 是 Linux 和 Windows。Linux 是 一 个 开源 操作 系统 ， 而 Windows 是 微软 开发 的 操作 
系统 ， 一 开始 客户 根本 不 会 选 购 和 使 用 Linux， 微 软 的 操作 系统 几乎 占领 所 有 的 PC 机 
市 场 。 发 展 到 后 来 ，Linux 在 服务 器 市 场 领域 取得 一 定 地 位 ， 在 个 人 机 市 场 几 乎 没有 地 
位 ， 倒 是 后 来 苹果 公司 的 MAC OS 占领 一 部 分 个 人 机 市 场 份额 。 在 整个 竞争 过 程 中 ， 
其 实 从 各 种 用 户 体 验 、 工 具 和 易 用 性 、 应 用 程序 数量 、 开 发 者 友好 性 等 方面 显然 
Windows 都 是 遥遥 领先 的 ，Linux 如 果 单 纯 靠 开源 社区 去 开发 , 我 认为 不 可 能 有 今天 的 
服务 器 市 场地 位 ，Linux 的 成 熟 其 实 归功 于 如 IBM 这 样 的 企业 的 大 规模 投入 来 支撑 。 
IBM 作为 一 个 服务 提供 商 ， 无 偿 投入 研发 力量 把 Linux 在 服务 器 市 场 做 到 可 应 用 的 背 
后 ， 是 其 战略 利益 的 选择 ， 如 果 UNIX 在 服务 器 市 场 败 下 来 ， 微 软 就 可 以 作为 服务 提 
供 商 和 IBM 进行 竞争 ，IBM 将 没有 优势 ， 这 就 是 Linux 能 够 成 熟 的 主要 原因 。 当 然 ， 
还 有 一 些 Linux 服务 商 ， 比 如 REDHAT， 也 为 了 自己 能 够 靠 Linux 服务 生存 而 对 Linux 
进行 贡献 和 支持 ， 这 说 明 如 果 没 有 核心 主力 商业 机 构 支 持 ， 开 源 不 可 能 成 为 商用 系统 。 
另外 一 个 例子 是 苹果 公司 的 手机 操作 系统 IOS 和 谷歌 公司 的 开源 操作 系统 Android。 苹 
果 公 司 开发 的 IOS 迅速 占领 了 手机 市 场 ， 而 谷歌 公司 通过 收购 过 来 的 Android 系统 开 
发 出 了 一 个 开源 的 手机 操作 系统 ， 并 且 几 乎 免费 给 所 有 厂商 使 用 ， 不 像 微软 的 操作 系 
统 是 需要 付费 的 。 谷 歌 这 样 做 ， 也 是 其 战略 利益 决定 ， 谷 歌 意识 到 自己 在 桌面 搜索 市 
场 已 经 占据 了 绝对 领先 份额 ,而 未 来 是 移动 的 天 下 , 移动 操作 系统 如 果 全 部 是 苹果 IOS 
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的 天 下 ， 那 么 在 移动 搜索 市 场 谷歌 将 颗粒 无 收 。 为 了 保护 移动 搜索 市 场 份额 ， 谷 歌 全 
力 把 Android 系统 开发 得 可 用 易 用 ， 给 手机 厂商 几乎 免费 提供 ， 这 种 情况 下 ， 才 形成 
了 移动 市 场 目前 二 分 天 下 的 格局 。 就 是 说 ， 本 质 上 Android 的 开源 成 功 不 是 开源 社区 
做 成 的 ， 而 是 谷歌 把 它 做 成 了 可 商用 系统 。 另 一 个 有 意思 的 案例 是 Java。Java 开源 系 
统 的 创始 公司 SUN， 后 来 倒 掉 了 ， 而 Java 却 活 下 来 。Java 能 够 得 以 生存 ， 也 是 离 不 开 
SUN 公司 。 因 此 我 们 发 现 有 几 个 特点 : 

Q 厂家 独立 开发 产品 交付 进度 快 ， 易 用 性 好 ， 工 具 齐 备 ， 应 用 数量 多 ; 

@ 开源 如 果 单 靠 开 源 社 区 几乎 不 可 能 产生 商用 版 本 ， 必 须 有 大 的 开发 厂商 介入 ， 
而 这 些 开 发 三 商 通常 是 有 利益 在 里 面 的 ， 否 则 他们 不 会 全 心 全 意 投 入 ; 

@ 市 场 上 ， 似 乎 从 来 没有 哪个 行业 完全 是 开源 的 市 场 ， 总 是 有 闭 源 有 开源 ， 最 后 
总 是 存在 两 三 家 主流 厂商 ， 而 不 会 是 仅仅 有 一 家 供应 商 。 

将 以 上 特点 对 照 开源 控制 器 ， 是 否 存在 一 个 大 的 开发 商 积 极地 不 计 本 身 代价 地 
投入 , 推动 其 成 熟 , 关键 在 于 这 些 大 的 开发 商 是 否 可 以 获得 足够 的 声 东 击 西 的 利益 。 
如 果 无 法 获得 类 似 的 收益 ， 那 么 他 们 就 不 会 投入 。 主 流 的 设备 供应 商 其 实 希 望 保持 
传统 利益 格局 ， 在 没有 特别 大 的 威胁 出 现 前 ， 肯 定 不 会 轻易 全 面 推动 开源 控制 器 走 
问 成 熟 ， 而 一 些小 广 商 则 希望 革命 ， 但 是 要 把 开源 控制 器 做 到 成 熟 ， 可 能 是 一 个 比 
较 漫 长 的 过 程 。 

如 果 说 开源 控制 器 没有 成 熟 到 一 定 程度 ， 厂 家 自己 利用 开源 ， 开 发 自己 的 控制 器 ， 那 
么 这 个 控制 器 本 质 上 还 是 一 个 私有 的 控制 器 , 不 能 算是 开源 的 控制 器 。 它 的 关键 在 于 不 可 替 
代 , 用 了 某 个 三 家 提供 的 基于 开源 开发 的 控制 器 , 其实 无 法 蔡 换 为 其 他 厂家 也 是 基于 开源 开 
发 的 控制 器 ， 原 因 在 于 开源 控制 器 不 成 熟 , 各 个 厂家 都 需要 自己 增加 很 多 私有 内 容 ， 这 些 私 
有 内 容 出 于 利益 ， 是 不 会 轻易 开源 的 。 这 就 导致 厂家 提供 的 开源 控制 器 相互 不 可 替代 ， 那 么 
与 购买 一 个 三 家 独立 开发 的 控制 器 就 区 别 不 大 了 。 很 多 厂家 打 着 开源 名 义 , 实际 背后 还 是 私 
有 的 产品 。 

其 实 开源 也 好 ， 厂 家 独立 提供 产品 也 好 ， 并 没有 什么 深刻 道理 ， 都 是 出 于 利益 这 一 
点 : 运营 商 关 注 开源 出 于 利益 ， 厂 家 支持 开源 出 于 利益 ， 厂 家 独立 开发 一 个 产品 也 是 出 
于 利益 。 而 在 这 种 复杂 的 博弈 过 程 中 ， 上 鹿死谁手 ， 只 能 留 给 时 间 检 验 了 。 


【本 章 小 结 】 


本 章 主 要 介绍 了 业界 几 家 主流 控制 器 的 实现 架构 ， 包 括 华为 控制 器 、 开 源 的 ODL、 
开源 的 ONOS 架构 。 其 中 华为 的 控制 器 是 一 个 开放 的 控制 器 架构 ， 基 于 华为 成 熟 的 分 布 
式 管 道 OS 构建 ， 支 持 大 规模 集群 能 力 ， 支 持 UNI-IP 技术 和 NSR 可 靠 性 技术 ， 并 且 开 
放 了 南 向 驱动 接口 、 北 向 的 网 络 操作 系统 接口 ， 以 及 北向 业务 接口 ， 能 够 支持 大 规模 网 
络 管控 ， 并 能 够 很 好 地 和 传统 网 络 进 行 互 通 ， 是 一 个 相对 成 熟 的 控制 器 系统 。 开 源 ODL 
Helium 版 本 支持 的 解决 方案 主要 面向 数据 中 心 ， 目 前 版 本 较 少 支持 WAN 特性 。 各 个 厂 
家 都 是 烟 奥 式 地 利用 ODL， 导 致 众多 基于 ODL 开发 的 控制 器 没有 达到 预期 的 互 操作 能 
力 ， 其 主要 原因 是 ODL 目前 版 本 主要 定义 了 模型 驱动 框架 ， 而 没有 提供 全 面 定义 标准 
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的 转发 器 设备 模型 和 网 络 抽象 模型 。ONOS 试图 定义 一 个 细 腰 架构 ， 直 接 定义 了 标准 网 
络 和 网 元 抽象 模型 ， 能 够 实现 多 厂家 互通 能 力 ， 而 ONOS 致力 于 WAN 需求 的 架构 设计 
包括 满足 大 规模 扩展 能 力 、 高 性 能 和 高 可 靠 性 设计 。ONOS 有 较 好 的 架构 ， 但 是 在 业务 
丰富 程度 上 还 有 差距 。 

本 章 分 析 的 控制 器 实例 是 基于 ONOS (www.onosproject.org) 和 ODL (www. openday 
light.org) 网 站 资料 ， 且 分 析 仅 针对 ONOS 的 Blackbird 版 本 和 ODL 的 Helium 版 本 现状 
给 出 了 个 人 判断 。 本 章 观点 为 作者 本 人 观点 ， 正 确 与 否 ， 请 读者 自行 甄别 。 





本 书 系统 地 阐述 了 SDN 相 对 于 传统 网 络 的 价值 ， 并 给 出 了 SDN 的 未 来 理想 愿景 


详细 地 介绍 了 SDN 的 基本 工作 原理 ， 书 中 ja 


说 明了 pt 络 架 构 的 


通 
-次 


过 对 比 SDN 和 传统 网 络 的 基本 实现 原理 ， 
重 构 ， 以 及 这 次 重 构 如 何 支撑 SDN 的 价值 


产生 。 定 义 了 SDN 的 核心 部 件 一 一 SDN 控 制 器 的 实现 架构 范式 : SDN 控 制 器 由 分 布 式 


操作 系统 、 网 络 操作 


战 和 解决 方案 建议 ， 这 些 挑战 包括 可 靠 性 、 








了 如 何 从 现 有 网 络 应 
的 实现 案例 分 析 





系统 、 网 络 业 务 应 用 程序 构成 。 随 后 给 出 了 SDN 所 面临 的 关键 挑 





收敛 性 能 、 开 放 性 和 安全 性 。 本 书 还 给 ! 


SDN 平 请 迁移 的 各 种 可 能 解决 方案 。 最 后 给 出 了 几 个 主流 控制 器 





加 开关 加 





分 类 建议 : 网 络 结构 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


Se7=-115” 


87115 407 > 


ISBN 978-7-115-40724-5 
定价 :59.00 元 


[General | nfornati on] 








SON] 






















































































S50 
DO 


之 25 
刁 3933274 





之 016. 04 
































于 






























































